#AXPO

1개의 포스트

[논문리뷰] Agent Explorative Policy Optimization for Multimodal Agentic Reasoning

본 논문은 vision-language models(VLMs)의 agentic reasoning 과정에서 발생하는 '도구 사용의 비효율성' 문제를 해결하고자 합니다.

#Review #Multimodal Agentic Reasoning #Reinforcement Learning #GRPO #AXPO #Tool-call Resampling #Thinking-Acting Gap #Vision-Language Models

2026년 5월 27일