#Tool-supervised RL

1개의 포스트

[논문리뷰] Visual Reasoning through Tool-supervised Reinforcement Learning

본 논문은 MLLM의 복잡한 시각적 추론을 위해 도구 사용 능력을 효과적으로 습득시키는 문제를 해결하고자 합니다. 기존의 Supervised Fine-Tuning(SFT) 방식은 고품질의 전문가 도구 사용 궤적을 구축하는 데 막대한 비용과 인력이 필요하다는 확장성 한계가 존재합니다.

#Review #Multimodal Large Language Models #Reinforcement Learning #Tool-supervised RL #Visual Reasoning #Curriculum Learning #ToolsRL

2026년 4월 22일