[논문리뷰] AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?본 논문은 기존 벤치마크가 단기적 또는 단일 단계(single-turn) 성능 평가에 치중되어 있어, 실제 과학 및 공학 분야에서 요구되는 장기적 반복 최적화 프로세스를 평가하지 못하는 한계를 해결하고자 합니다 .#Review#AutoLab#Long-horizon optimization#Frontier models#Agentic benchmarks#Closed-loop optimization#System optimization#CUDA kernel optimization2026년 6월 3일댓글 수 로딩 중