[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios기존 LLM 에이전트 벤치마크가 짧은 호라이즌과 완전 관측 가능한 태스크에 집중하여 실제 복합 태스크에 필수적인 지속적인 추론, 계획, 메모리 관리, 툴 사용 능력 을 충분히 평가하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Long-Horizon Reasoning#Benchmarking#Partially Observable#Tool Use#Memory Management#Exploration2025년 9월 29일댓글 수 로딩 중
[논문리뷰] PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments본 연구는 기존 MLLM이 정적이고 완전히 관찰 가능한 환경에 국한되어 실제 물리적 환경에서의 정보 불완전성 문제에 취약하다는 한계를 지적합니다.#Review#Active Visual Reasoning#MLLM#Physical Environments#Partially Observable#Markov Decision Process#Chain-of-Thought#Embodied AI#CLEVR-AVR2025년 10월 27일댓글 수 로딩 중