[논문리뷰] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks기존 Coding Agent Benchmark 들은 압도적으로 Single-shot Solutions 을 Complete Specification에 대해 평가하고 있으며, 이는 Agent가 현재 Specification 에 대한 Correct Code 를 생성할 수 있는지 여부만을 측정한다.#Review#SlopCodeBench#Coding Agents#Iterative Development#Code Quality#Structural Erosion#Verbosity#Benchmarking#Long-Horizon Tasks2026년 3월 26일댓글 수 로딩 중