[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning본 논문은 기존 멀티모달 보상 모델(Reward Models, RMs)이 겪는 환각, 약한 시각적 접지(visual grounding), 그리고 검증을 위한 도구 사용 능력 부족 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Reward Models#Agentic AI#Tool Use#Reinforcement Learning#Visual Reasoning#Multimodal LLMs#Instruction Following#Evaluation Benchmarks2025년 12월 4일댓글 수 로딩 중