[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL TuningMLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.#Review#Multimodal Large Language Models#Reinforcement Learning#Post-training#Reasoning#Dual-Reward System#Thinking Reward#Judging Reward#Hallucination Reduction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart UnderstandingVision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.#Review#Visual Programmability#Code-as-Thought (CaT)#Chart Understanding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning#Dual-Reward System#Multimodal AI2025년 9월 12일댓글 수 로딩 중