[논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization최근 대형 언어 모델의 추론 능력 향상을 위해 RLVR 기반의 강화학습이 널리 활용되고 있으나, 표준적인 GRPO 방식은 궤적 전체에 대해 동일한 가중치의 보상을 부여하는 거친 Credit Assignment 문제를 안고 있습니다.#Review#Reinforcement Learning#Large Language Models#Future-KL#Policy Optimization#GRPO#Chain-of-Thought#Credit Assignment2026년 3월 31일댓글 수 로딩 중