[논문리뷰] Beyond Retrieval: A Multitask Benchmark and Model for Code Search코드 검색 벤치마크 분야는 데이터 오염, 평가 지표의 단일성, 그리고 실제 배포 환경과 괴리된 평가 방식으로 인해 정교한 모델 성능 측정이 어렵습니다.#Review#Code Search#Benchmark#Reranker#Data Contamination#Retrieval-Augmented Generation#Code LLM2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Self-Execution Simulation Improves Coding Models본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.#Review#Code LLM#Execution Simulation#Self-Verification#Self-RLEF#Reinforcement Learning2026년 4월 6일댓글 수 로딩 중