[논문리뷰] MAPO: Mixed Advantage Policy Optimization본 연구는 파운데이션 모델의 추론 성능 향상을 위한 기존 강화 학습(RL) 방법론, 특히 Group Relative Policy Optimization (GRPO) 이 겪는 'advantage reversion' 및 'advantage mirror' 문제 해결을 목표로 합니다.#Review#Reinforcement Learning#Foundation Models#Policy Optimization#Advantage Function#Trajectory Certainty#Multimodal Reasoning#GRPO2025년 9월 24일댓글 수 로딩 중