[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.#Review#Multimodal Agents#Vision-Language Models (VLMs)#Interactive AI#Reinforcement Learning Environments#Benchmark#Decision-Making#Diagnostic Tools#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중