#Dual-Reward System

2개의 포스트

[논문리뷰] SAIL-RL: Guiding MLLMs in When and How to Think via Dual-Reward RL Tuning

MLLM(Multimodal Large Language Models)의 추론 능력 향상을 목표로 합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Post-training #Reasoning #Dual-Reward System #Thinking Reward #Judging Reward #Hallucination Reduction

2025년 11월 9일

[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

Vision-Language Models (VLM)이 차트 이해 태스크에서 고정된 추론 전략(예: 외부 도구 의존 또는 단일 Chain-of-Thought)으로 인해 복잡하거나 '실제 환경' 차트에서 성능이 저하되는 문제를 해결합니다.

#Review #Visual Programmability #Code-as-Thought (CaT)#Chart Understanding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning #Dual-Reward System #Multimodal AI

2025년 9월 12일