[논문리뷰] From Runnable to Shippable: Multi-Agent Test-Driven Development for Generating Full-Stack Web Applications from Requirements본 논문은 현재의 코딩 에이전트가 웹 애플리케이션 생성 시 겪는 70% 이상의 기능적 요구사항 미충족 문제를 해결하는 것을 목표로 합니다. 기존의 에이전트는 코드 파일이나 터미널 출력만을 기반으로 검증을 수행하지만, 웹 애플리케이션의 정확성은 브라우저 환경에서의 동적 상호작용을 통해서만 평가될 수 있습니다 .#Review#Multi-Agent System#Test-Driven Development#Web Development#Code Generation#Closed-Loop Validation#Large Language Model2026년 5월 18일댓글 수 로딩 중
[논문리뷰] FeatureBench: Benchmarking Agentic Coding for Complex Feature Development대규모 언어 모델(LLM) 기반 코드 에이전트의 현재 코딩 능력을 평가하고, 기존 벤치마크의 제한적인 태스크 범위(버그 수정 등)를 넘어 복잡한 기능 개발 시나리오에서의 성능을 측정하기 위한 새로운 벤치마크인 FeatureBench 를 제안하는 것을 목표로 합니다.#Review#Agentic Coding#Benchmarking#LLMs#Feature Development#Software Engineering#Test-Driven Development#Scalability2026년 2월 11일댓글 수 로딩 중