[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.#Review#Competitive Programming#LLM Evaluation#Code Reasoning#Benchmark#Test Case Generation#Programming Competitions#Algorithmic Problems2025년 8월 25일댓글 수 로딩 중