[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Long-Context LLMs#Software Engineering#Code Evaluation#Benchmark#Multi-file Reasoning#Architectural Understanding#Context Length#Software Development Lifecycle#Metrics2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Vibe Checker: Aligning Code Evaluation with Human Preference본 논문은 기존의 코드 LLM 평가가 기능적 정확성(pass@k)에만 초점을 맞춰, 코딩 스타일, 의도 보존, 가독성과 같은 사용자 선호도(‘vibe check’)를 반영하지 못하는 문제를 해결하고자 합니다.#Review#Code Evaluation#Instruction Following#Human Preference#Large Language Models#Vibe Check#Non-functional Requirements#VeriCode2025년 10월 9일댓글 수 로딩 중