#Long-Horizon

16개의 포스트

[논문리뷰] QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

본 논문은 Long-horizon LLM Agent의 학습을 저해하는 희소 보상(Sparse Reward) 문제를 해결하기 위한 dense supervision 방법론들을 효율적으로 평가하고자 합니다 .

#Review #LLM Agents #Dense Supervision #Reinforcement Learning #Q-alignment #Evaluation Benchmark #Long-Horizon #Training-Free

2026년 6월 30일

[논문리뷰] Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

본 논문은 에이전트 모델의 성능을 향상시키기 위한 기존의 파라미터 스케일링 전략이 갖는 높은 비용과 재현성 문제를 해결하기 위해 에이전트 호라이즌(Horizon) 확장을 제안합니다 .

#Review #Agents-A1 #Long-Horizon #Knowledge-Action Graph #Mixture-of-Experts #On-Policy Distillation #Salient Vocabulary Alignment

2026년 6월 29일

[논문리뷰] CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies

본 논문은 기존 LLM 에이전트 벤치마크가 단일 에이전트나 동질적인 환경에 국한되어, 현실적인 경제 시스템의 복잡성을 반영하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #Long-Horizon #Multi-Agent Economy #Benchmark #Supply Chain #Decision-making

2026년 6월 25일

[논문리뷰] EventVLA: Event-Driven Visual Evidence Memory for Long-Horizon Vision-Language-Action Policies

본 논문은 기존의 VLA 모델이 엄격한 Markovian 가정 하에 작동하여 장기 작업(long-horizon) 중 발생하는 시각 정보의 차단이나 일시적 변화를 적절히 처리하지 못하는 문제를 해결합니다.

#Review #Vision-Language-Action Models #Robotic Manipulation #Long-Horizon #Memory-Augmented #Keyframe Evidence Memory #Non-Markovian

2026년 6월 23일

[논문리뷰] CEO-Bench: Can Agents Play the Long Game?

본 논문은 기존의 에이전트 평가 방식이 단기 작업(Short-horizon tasks)에 치우쳐 있어, 실제 세계의 복잡한 의사결정 과정을 검증하지 못한다는 문제 의식에서 출발한다 .

#Review #Long-Horizon #Agent Evaluation #Business Simulation #Decision Making #Partial Observability #Strategic Planning #Autonomous Agents

2026년 6월 17일

[논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

기존의 컴퓨터 에이전트 평가 벤치마크는 주로 단일 브라우저 기반 작업에 국한되어 있어, 실제 데스크톱 환경의 복잡한 Long-Horizon 작업 수행 능력을 평가하는 데 한계가 있습니다.

#Review #Computer-Use Agent #Long-Horizon #Real-World Benchmark #Hybrid Interface #Human-Computer Interaction #Agent Evaluation

2026년 6월 11일

[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .

#Review #Agentic Data Analysis #Long-Horizon #State Management #Benchmark #LLM Agents #State-Evolution

2026년 5월 31일

[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

Long-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.

#Review #Long-Horizon #Self-Distillation #Hindsight Experience Replay #Reinforcement Learning #Sparse Reward #Goal-Conditioned Policy

2026년 5월 24일

[논문리뷰] LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems

본 논문은 현재의 memory-augmented agent들이 현실 세계의 복잡하고 진화하는 long-horizon 환경에서 겪는 기억 오류 문제를 해결하고자 한다.

#Review #Long-Horizon #Agent Systems #Memory Evaluation #Multi-Target Interference #Retrieval-Augmented Generation #Benchmarking

2026년 5월 20일

[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.

#Review #GUI Agents #Media Post-Production #Benchmark #Multimodal #Long-Horizon #Grounding #Vibe Cutting

2026년 5월 20일

[논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents

본 논문은 현재의 GUI agent가 장기적(Long-Horizon) 태스크 수행 시 인터페이스 변화에 따른 태스크 상태를 유지하는 데 한계를 보인다는 점을 문제로 지적합니다.

#Review #GUI Agents #Multimodal Memory #Long-Horizon #Memory Control #MLLM #Working Memory #Episodic Memory

2026년 5월 18일

[논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

본 논문은 현대 의료 운영 시스템의 핵심 워크플로우인 사전 승인(Prior Authorization), 이용 관리(Utilization Management), 케어 관리(Care Management)를 자동화하려는 AI 에이전트들의 실질적인 한계를 규명합니다.

#Review #Healthcare AI #AI Agents #Policy-Rich Workflows #Long-Horizon #Benchmark #Managed-Care Operations #Model Context Protocol

2026년 5월 18일

[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation

본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.

#Review #Agent Evaluation #Long-Horizon #Native-Runtime #Multimodal #Reproducible #Hybrid Verification

2026년 5월 14일

[논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

본 논문은 기존의 ReAct나 Chain-of-Thought (CoT)와 같은 에이전트 패러다임이 가진 환경 인식의 시간적 역전 문제를 해결하고자 한다 .

#Review #LLM Agent #Long-Horizon #Cognitive Map #Affordance Theory #Epistemic Bottleneck #Interactive Agent #Environment Understanding

2026년 5월 13일

[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning

본 논문은 기존의 영상 이해 벤치마크가 대부분 단일 시점 정보만으로 해결 가능하거나, 지나치게 논리적 구조에만 치중되어 있어 모델의 실질적인 시각적 추론 능력을 평가하기 어렵다는 문제를 제기한다.

#Review #Video Benchmark #Multimodal Reasoning #Perception-Centric #Long-Horizon #Test-Time Thinking

2026년 4월 1일

[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models

본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.

#Review #Reinforcement Learning #World Models #Video Generation #Autoregressive Generation #Long-Horizon #Post-training #Diffusion Models #Reward Functions

2026년 2월 9일