[논문리뷰] QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents본 논문은 Long-horizon LLM Agent의 학습을 저해하는 희소 보상(Sparse Reward) 문제를 해결하기 위한 dense supervision 방법론들을 효율적으로 평가하고자 합니다 .#Review#LLM Agents#Dense Supervision#Reinforcement Learning#Q-alignment#Evaluation Benchmark#Long-Horizon#Training-Free2026년 6월 30일댓글 수 로딩 중