[논문리뷰] Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning본 논문은 데이터 부족 및 보상 해킹(reward hacking) 문제로 인해 강화 학습(RL) 기반 Vision-Language Models (VLMs) 의 전문 도메인(예: 화학, 지구 과학) 적용 및 지속적인 자체 진화 학습이 어려운 문제를 해결하고자 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Evolving Learning#Data-Scarce Domains#Context-First Learning#Reward Hacking Mitigation#Multimodal Reasoning#Curriculum Learning2025년 12월 8일댓글 수 로딩 중