[논문리뷰] OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks본 논문은 MLLM의 강화학습 후학습(post-training) 과정에서 발생하는 보상 분포의 극심한 분산과 태스크 간 업데이트 불균형 문제를 해결합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Gaussian GRPO#Optimal Transport#Multi-task Learning#Visual Reasoning2026년 4월 9일댓글 수 로딩 중