[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning본 논문은 LLM(Large Language Model) 훈련 시 희소한 스칼라 보상에만 의존하여 발생하는 비효율적인 탐색 문제 를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Natural Language Feedback#Exploration#Group-Level Feedback#Self-Refinement#Sample Efficiency2026년 3월 11일댓글 수 로딩 중