[논문리뷰] From Uniform to Heterogeneous: Tailoring Policy Optimization to Every Token's Nature기존 RLHF (Reinforcement Learning from Human Feedback) 알고리즘이 LLM의 추론 과정에서 토큰의 다양한 역할을 무시하고 모든 토큰에 균일한 최적화를 적용하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLMs#Policy Optimization#Token Heterogeneity#Adaptive Sampling#Advantage Redistribution#Asymmetric Clipping#Entropy-based RL2025년 9월 23일댓글 수 로딩 중