[논문리뷰] When Models Judge Themselves: Unsupervised Self-Evolution for Multimodal Reasoning최근 멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 강력한 성능을 보여주었지만, 이러한 발전은 주로 고품질의 주석 처리된 데이터나 교사 모델(teacher-model) 증류(distillation)에 의존하고 있어 비용이 많이 들고 확장이 어렵습니다.#Review#Unsupervised Self-Evolution#Multimodal Reasoning#Consistency-Based Reward#Judge Modulation#Group Relative Policy Optimization (GRPO)#Policy Updates#Mathematical Reasoning#Large Language Models2026년 3월 25일댓글 수 로딩 중