[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.#Review#Coding Agents#LLMs#Software Engineering#Repository Generation#Long-Horizon Reasoning#Benchmark#Python Development#Autonomous Systems2025년 12월 15일댓글 수 로딩 중