#Gaussian GRPO

1개의 포스트

[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks

본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Gaussian GRPO #Optimal Transport #Multi-task Learning #Visual Reasoning

2026년 4월 9일