[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.#Review#Vision-Language Models#Embodied AI#Long-Horizon Planning#3D Open-World Benchmark#Automated Evaluation2026년 4월 9일댓글 수 로딩 중