[논문리뷰] SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?본 논문은 Autonomous AI Agents가 연구 파이프라인을 자동화함에 따라, 무분별한 실험 수행 전에 아이디어의 타당성을 걸러내는 First-gate 단계가 필수적임을 강조합니다.#Review#Autonomous AI Agents#Research Evaluation#Methodological Soundness#Large Language Models#Optimism Bias#Scientific Benchmarking#First-gate Evaluation2026년 5월 31일댓글 수 로딩 중