[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interactions#Reward Sparsity#Information Gain#Policy Optimization#Ground-Truth Awareness#Sample Efficiency2025년 10월 17일댓글 수 로딩 중