[논문리뷰] Beyond Retrieval: A Multitask Benchmark and Model for Code Search코드 검색 벤치마크 분야는 데이터 오염, 평가 지표의 단일성, 그리고 실제 배포 환경과 괴리된 평가 방식으로 인해 정교한 모델 성능 측정이 어렵습니다.#Review#Code Search#Benchmark#Reranker#Data Contamination#Retrieval-Augmented Generation#Code LLM2026년 5월 10일댓글 수 로딩 중