#Code LLM

2개의 포스트

[논문리뷰] Beyond Retrieval: A Multitask Benchmark and Model for Code Search

코드 검색 벤치마크 분야는 데이터 오염, 평가 지표의 단일성, 그리고 실제 배포 환경과 괴리된 평가 방식으로 인해 정교한 모델 성능 측정이 어렵습니다.

#Review #Code Search #Benchmark #Reranker #Data Contamination #Retrieval-Augmented Generation #Code LLM

2026년 5월 10일

[논문리뷰] Self-Execution Simulation Improves Coding Models

본 논문은 LLM이 생성한 코드를 실제로 실행하지 않고도 코드의 실행 결과와 동학(dynamics)을 정확히 예측하도록 훈련하여 프로그래밍 성능을 향상시키는 것을 목표로 합니다.

#Review #Code LLM #Execution Simulation #Self-Verification #Self-RLEF #Reinforcement Learning

2026년 4월 6일