#Benchmarks

13개의 포스트

[논문리뷰] RubricBench: Aligning Model-Generated Rubrics with Human Standards

본 논문은 최신 대규모 언어 모델(LLM) 의 복잡한 생성물에 대한 평가에서 표면적인 편향 을 완화하고 인간의 의도를 정확히 반영하기 위해 루브릭 기반 평가 의 신뢰성을 평가하는 통일된 벤치마크가 부족하다는 문제를 해결합니다.

#Review #LLM Evaluation #Reward Models #Rubric-Guided Evaluation #Benchmarks #Model Alignment #Human Standards #Cognitive Misalignment

2026년 3월 2일

[pytorch] CI: Inductor 벤치마크 CI 작업을 CUDA 12.8에서 13.0으로 통합 전환

PyTorch Inductor의 CI 벤치마크 워크플로우에서 CUDA 12.8과 13.0 이중 빌드를 CUDA 13.0 단일 빌드로 통합하여 CI 리소스를 절약한 사례를 분석합니다.

#PyTorch #CI #CUDA #GitHub Actions #Inductor #Benchmarks

2026년 2월 27일

[pytorch] Benchmark: Inductor 벤치마크에서 CycleGAN 모델 제거

PyTorch Inductor 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델을 24개 expected accuracy CSV에서 일괄 제거하여 CI 안정성을 개선한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #CycleGAN

2026년 2월 19일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[pytorch] Inductor: CycleGAN CPU 벤치마크 expected accuracy 상태 업데이트

PyTorch Inductor의 CPU 벤치마크에서 pytorch_CycleGAN_and_pix2pix 모델의 expected 상태를 pass에서 eager_fail_to_run으로 변경한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #Accuracy

2026년 2월 16일

[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.

#Review #LLM Agents #Benchmarks #Tool-use #Consistency #Uncertainty Handling #Hallucination #In-car Assistant #Policy Adherence

2026년 2월 5일

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일

[pytorch] CI: Inductor 테스트에 IoU 기반 accuracy 체크를 추가하여 segmentation 모델 안정화

PyTorch Inductor 벤치마크에서 segmentation 모델의 boolean mask 출력에 IoU(Intersection over Union) 메트릭을 적용하여, 부동소수점 차이로 인한 false failure를 방지한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #IoU #Segmentation #Accuracy #CI

2026년 1월 12일

[pytorch] Benchmark: Inductor 벤치마크에서 modded_nanogpt 모델 Skip 처리

TorchInductor 벤치마크에서 정상 동작하지 않는 modded_nanogpt 모델을 skip 리스트에 추가하여 CI 안정성을 개선한 사례를 분석합니다.

#PyTorch #Inductor #Benchmarks #CI #NanoGPT

2026년 1월 9일

[논문리뷰] LLMs4All: A Review on Large Language Models for Research and Applications in Academic Disciplines

이 논문은 최첨단 거대 언어 모델(LLM) 과 이들이 다양한 학문 분야(인문학, 법률, 경제, 경영, 과학, 공학)에 통합되는 현황을 종합적으로 검토하는 것을 목표로 합니다.

#Review #Large Language Models #Generative AI #Academic Disciplines #LLM Applications #Review #Cross-disciplinary Research #Benchmarks

2025년 9월 25일

[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarks #Model Context Protocol (MCP)#LLM Evaluation #Agentic AI #Real-World Performance

2025년 9월 15일

[논문리뷰] Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning

본 논문은 LLM의 과학 문제 해결 능력에 있어 깊은 도메인 지식 과 복잡한 추론 능력 의 필요성을 강조하며, 이를 종합적으로 평가할 수 있는 통일된 벤치마크의 부재와 지식 및 추론의 역할을 체계적으로 분리하여 연구하는 방법론의 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Scientific Reasoning #Knowledge Retrieval #Reasoning Probing #Benchmarks #Chain-of-Thought #Fine-tuning

2025년 8월 27일

[논문리뷰] Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks

본 논문은 인간의 다중모달 공간 추론 능력을 대규모 모델(MLLMs)에 적용하는 연구의 현황을 체계적으로 검토하고, 이 분야의 발전을 위한 공개 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Spatial Reasoning #Survey #Benchmarks #3D Vision #Embodied AI #Vision-Language Navigation

2025년 10월 30일