[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.#Review#Agentic Coding#Benchmarking#LLMs#Feature Development#Software Engineering#Test-Driven Development#Scalability2026년 2월 11일댓글 수 로딩 중