[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.#Review#Multimodal Agents#Vision-Language Models (VLMs)#Interactive AI#Reinforcement Learning Environments#Benchmark#Decision-Making#Diagnostic Tools#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Are LLM Decisions Faithful to Verbal Confidence?대규모 언어 모델(LLM)이 자체 불확실성을 표현하는 '언어적 자신감'이 모델의 실제 추론, 지식 또는 의사 결정에 얼마나 충실한지 평가하는 것을 목표로 합니다. 특히, LLM이 다양한 오류 페널티에 반응하여 질문 응답 또는 기권 정책을 전략적으로 조정하는지 여부를 테스트합니다.#Review#Large Language Model#Uncertainty Quantification#Verbal Confidence#Abstention#Decision-Making#Risk-Sensitive AI#Utility Maximization2026년 1월 12일댓글 수 로딩 중
[논문리뷰] OceanGym: A Benchmark Environment for Underwater Embodied Agents본 연구는 해저 환경의 낮은 가시성, 동적 해류 등의 극한 조건에서 AI 기반 자율 수중 로봇(AUV) 이 직면하는 심각한 인지 및 의사결정 문제들을 해결하기 위해, 포괄적인 벤치마크 환경인 OCEANGYM 을 제안합니다. 궁극적으로는 실제 환경에 적용 가능한 강력한 자율 에이전트 개발을 촉진하는 것을 목표로 합니다.#Review#Underwater Robotics#Embodied AI#Benchmark Environment#Multi-modal Large Language Models#Autonomous Underwater Vehicles#Perception#Decision-Making#Simulation2025년 10월 1일댓글 수 로딩 중