[논문리뷰] PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models본 논문은 기존의 embodied VLM 벤치마크들이 겪고 있는 3D 환경의 복잡성 부족, Privileged State Leakage(에이전트가 내부 데이터에 직접 접근), 그리고 확장이 어려운 인간 평가 방식의 한계를 해결하기 위해 제안되었다.#Review#Vision-Language Models#Embodied AI#Long-Horizon Planning#3D Open-World Benchmark#Automated Evaluation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM AgentsLarge language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.#Review#LLM Agents#Subgoals#Reinforcement Learning#Web Navigation#Long-Horizon Planning#Reward Shaping#Curriculum Learning2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Learning from Trials and Errors: Reflective Test-Time Planning for Embodied LLMs본 논문은 기존 Embodied LLM이 고정된 오라클로서 실패로부터 학습하거나 경험을 축적하지 못하여 반복적인 실수를 초래하는 문제를 해결하고자 합니다.#Review#Embodied LLMs#Test-Time Adaptation#Reflection-in-Action#Reflection-on-Action#Robotics#Long-Horizon Planning#Policy Gradient#Self-Supervised Learning2026년 2월 24일댓글 수 로딩 중
[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Evaluation#Long-Horizon Planning#Interactive Economies#Benchmark#Agentic AI#Economic Simulation#Plan-and-Execute2026년 2월 11일댓글 수 로딩 중
[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Long-Horizon Planning#Benchmarking#Verifiable Constraints#Tool Use#Constraint Optimization#Information Acquisition#Travel Planning#Shopping Planning2026년 1월 26일댓글 수 로딩 중
[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language NavigationVision-and-Language Navigation (VLN)에서 기존 Chain-of-Thought (CoT) 추론 방식의 한계, 즉 공간 접지 부족, 희소한 주석에 대한 과적합, 또는 상상된 시각적 관찰 생성으로 인한 심각한 토큰 팽창 문제로 실시간 내비게이션이 비실용적인 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Navigation#Chain-of-Thought Reasoning#Multimodal AI#Implicit Reasoning#Visual AutoRegressor#Embodied AI#Long-Horizon Planning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone본 논문은 기존 Autoregressive (AR) 기반 대규모 시각-언어 모델(VLM) 및 시각-언어-액션 모델(VLA)의 복잡한 시각 계획 및 동적 로봇 제어에서의 한계를 극복하는 것을 목표로 합니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Robotic Manipulation#Data Scarcity#Generalization#Sim-to-Real Transfer#Online RL#Long-Horizon Planning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds본 논문의 핵심 연구 목표는 복잡한 가상 세계 내에서 대규모 언어 모델(LLM) 의 장기 계획 및 구조화된 추론 능력을 평가하는 것입니다.#Review#Long-Horizon Planning#Structured Reasoning#LLM Evaluation#Virtual Worlds#RPG#Benchmark#Agent Systems#Combat Simulation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Agentic Search#Asynchronous RL#Long-Horizon Planning#Tool Use#Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks본 논문은 실세계의 복잡한 장기(long-horizon) 작업 을 수행하는 AI 에이전트가 경험으로부터 학습하고 지속적으로 개선되지 못하는, 즉 '테스트-시간 정적(test-time static)' 이라는 한계를 해결하고자 합니다.#Review#LLM Agents#Continuous Learning#Self-Evolving#Memory Module#Long-Horizon Planning#Productivity Tasks#Test-Time Learning#Experience Replay2025년 10월 10일댓글 수 로딩 중