[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.#Review#Benchmark#LLMs#Scientific Reasoning#Multidisciplinary#AI4S#Data Contamination#Evaluation#LRM-as-Judge2025년 11월 18일댓글 수 로딩 중