#Algorithmic Problems

1개의 포스트

[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.

#Review #Competitive Programming #LLM Evaluation #Code Reasoning #Benchmark #Test Case Generation #Programming Competitions #Algorithmic Problems

2025년 8월 25일