[논문리뷰] Self-Improving VLM Judges Without Human Annotations본 논문은 VLM (Vision-Language Model) judge 를 훈련하기 위해 필요한 고비용의 인간 선호도 주석 또는 대규모 모델로부터의 지식 증류(distillation)에 대한 의존성을 제거하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Improvement#Judge Models#Synthetic Data Generation#Iterative Refinement#Reward Modeling#Human-free Alignment2025년 12월 7일댓글 수 로딩 중