#Python Development

1개의 포스트

[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Coding Agents #LLMs #Software Engineering #Repository Generation #Long-Horizon Reasoning #Benchmark #Python Development #Autonomous Systems

2025년 12월 15일