[논문리뷰] Agent Explorative Policy Optimization for Multimodal Agentic Reasoning본 논문은 vision-language models(VLMs)의 agentic reasoning 과정에서 발생하는 '도구 사용의 비효율성' 문제를 해결하고자 합니다.#Review#Multimodal Agentic Reasoning#Reinforcement Learning#GRPO#AXPO#Tool-call Resampling#Thinking-Acting Gap#Vision-Language Models2026년 5월 27일댓글 수 로딩 중