#Olympiad-level Math

1개의 포스트

[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.

#Review #LLM Evaluation #Mathematical Reasoning #Olympiad-level Math #Benchmark #Performance Saturation #Test-time Scaling #AMO-Bench

2025년 10월 31일