[논문리뷰] Benchmark Everything Everywhere All at Once본 논문은 기존의 수동적인 벤치마크 구축 방식이 가진 한계인 노동 집약성, 재사용 불가능성, 그리고 모델 성능 향상에 따른 빠른 벤치마크 포화(Saturation) 문제를 해결하고자 합니다.#Review#Benchmark Agent#Autonomous Evaluation#Benchmark Construction#MLLM-as-a-Judge#Agentic Workflow#Performance Saturation2026년 6월 4일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중