#Q-alignment

1개의 포스트

[논문리뷰] QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

본 논문은 Long-horizon LLM Agent의 학습을 저해하는 희소 보상(Sparse Reward) 문제를 해결하기 위한 dense supervision 방법론들을 효율적으로 평가하고자 합니다 .

#Review #LLM Agents #Dense Supervision #Reinforcement Learning #Q-alignment #Evaluation Benchmark #Long-Horizon #Training-Free

2026년 6월 30일