[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.#Review#Deep Search#Agentic Data Generation#LLMs#Execution Feedback#Reinforcement Learning#Question Answering#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution코드 생성 대형 언어 모델(LLM)의 품질을 평가하는 기존 방법론의 한계를 해결하는 것이 이 연구의 핵심 목표입니다. 특히, 단순히 코드 스니펫을 읽거나 정적 분석에 의존하는 방식으로는 코드의 실제 기능성, 런타임 동작, 비기능적 속성을 정확히 판단하기 어렵다는 문제점을 지적합니다.#Review#Code Generation#Human Preference#LLM Evaluation#Execution Feedback#Benchmarking#Crowdsourcing#Software Engineering#Large Language Models2025년 10월 13일댓글 수 로딩 중