[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model본 논문은 critic 모델이 단순히 응답을 평가하는 것을 넘어 강력한 정책 모델로서 생성 능력까지 갖출 수 있다는 통념에 도전합니다. 최종 목표는 선호도 기반 critic 데이터를 활용한 강화 학습(RL) 을 통해, 평가와 생성 두 가지 역할을 동시에 탁월하게 수행하는 단일 멀티모달 모델을 개발하는 것입니다.#Review#Vision-Language Models (VLMs)#Critic Models#Policy Models#Reinforcement Learning (RL)#Self-Criticism#Multimodal Reasoning#Preference Learning#Generative Models2025년 9월 3일댓글 수 로딩 중