#Code Evaluation

2개의 포스트

[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Long-Context LLMs #Software Engineering #Code Evaluation #Benchmark #Multi-file Reasoning #Architectural Understanding #Context Length #Software Development Lifecycle #Metrics

2025년 9월 12일

[논문리뷰] Vibe Checker: Aligning Code Evaluation with Human Preference

본 논문은 기존의 코드 LLM 평가가 기능적 정확성(pass@k)에만 초점을 맞춰, 코딩 스타일, 의도 보존, 가독성과 같은 사용자 선호도(‘vibe check’)를 반영하지 못하는 문제를 해결하고자 합니다.

#Review #Code Evaluation #Instruction Following #Human Preference #Large Language Models #Vibe Check #Non-functional Requirements #VeriCode

2025년 10월 9일