[논문리뷰] ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation본 논문은 테스트들 간의 leave-one-out evaluation을 통해 circular dependency를 분리하는 ACES를 제안한다. 핵심 이론인 LOO-AUC Identity는 관측 가능한 LOO-AUC가 잠재적인 discriminative power와 비례함을 증명한다 [Theorem 3].#Review#Code Generation#LLM#Test Reranking#AUC#Discriminative Power#Leave-One-Out#Test Weighting2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SWE-RM: Execution-free Feedback For Software Engineering AgentsX. W.이 arXiv에 게시한 'SWE-RM: Execution-free Feedback For Software Engineering Agents' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Agents#Execution-free Feedback#Reward Model#Reinforcement Learning#Test-Time Scaling#Calibration#AUC#SWE-Bench2025년 12월 28일댓글 수 로딩 중