[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering Agents본 논문은 소프트웨어 엔지니어링(SWE) 에이전트 개발에서 실행 기반 피드백(execution-based feedback) 의 한계(희소성, 낮은 식별 능력)를 극복하고자 합니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중