[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .#Review#Agentic Data Analysis#Long-Horizon#State Management#Benchmark#LLM Agents#State-Evolution2026년 5월 31일댓글 수 로딩 중
[논문리뷰] HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon AgentsLong-horizon 과업에서 에이전트가 Sparse Reward 환경 하에 학습할 때, 전통적인 탐색 방법은 최적의 Policy를 수렴하는 데 극도로 긴 시간이 소요됩니다.#Review#Long-Horizon#Self-Distillation#Hindsight Experience Replay#Reinforcement Learning#Sparse Reward#Goal-Conditioned Policy2026년 5월 24일댓글 수 로딩 중
[논문리뷰] LongMINT: Evaluating Memory under Multi-Target Interference in Long-Horizon Agent Systems본 논문은 현재의 memory-augmented agent들이 현실 세계의 복잡하고 진화하는 long-horizon 환경에서 겪는 기억 오류 문제를 해결하고자 한다.#Review#Long-Horizon#Agent Systems#Memory Evaluation#Multi-Target Interference#Retrieval-Augmented Generation#Benchmarking2026년 5월 20일댓글 수 로딩 중
[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.#Review#GUI Agents#Media Post-Production#Benchmark#Multimodal#Long-Horizon#Grounding#Vibe Cutting2026년 5월 20일댓글 수 로딩 중
[논문리뷰] MementoGUI: Learning Agentic Multimodal Memory Control for Long-Horizon GUI Agents본 논문은 현재의 GUI agent가 장기적(Long-Horizon) 태스크 수행 시 인터페이스 변화에 따른 태스크 상태를 유지하는 데 한계를 보인다는 점을 문제로 지적합니다.#Review#GUI Agents#Multimodal Memory#Long-Horizon#Memory Control#MLLM#Working Memory#Episodic Memory2026년 5월 18일댓글 수 로딩 중
[논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?본 논문은 현대 의료 운영 시스템의 핵심 워크플로우인 사전 승인(Prior Authorization), 이용 관리(Utilization Management), 케어 관리(Care Management)를 자동화하려는 AI 에이전트들의 실질적인 한계를 규명합니다.#Review#Healthcare AI#AI Agents#Policy-Rich Workflows#Long-Horizon#Benchmark#Managed-Care Operations#Model Context Protocol2026년 5월 18일댓글 수 로딩 중
[논문리뷰] WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation본 연구는 기존 에이전트 벤치마크가 현실적인 배포 환경을 제대로 반영하지 못하는 한계를 해결하기 위해 수행되었다.#Review#Agent Evaluation#Long-Horizon#Native-Runtime#Multimodal#Reproducible#Hybrid Verification2026년 5월 14일댓글 수 로딩 중
[논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning본 논문은 기존의 ReAct나 Chain-of-Thought (CoT)와 같은 에이전트 패러다임이 가진 환경 인식의 시간적 역전 문제를 해결하고자 한다 .#Review#LLM Agent#Long-Horizon#Cognitive Map#Affordance Theory#Epistemic Bottleneck#Interactive Agent#Environment Understanding2026년 5월 13일댓글 수 로딩 중
[논문리뷰] PerceptionComp: A Video Benchmark for Complex Perception-Centric Reasoning본 논문은 기존의 영상 이해 벤치마크가 대부분 단일 시점 정보만으로 해결 가능하거나, 지나치게 논리적 구조에만 치중되어 있어 모델의 실질적인 시각적 추론 능력을 평가하기 어렵다는 문제를 제기한다.#Review#Video Benchmark#Multimodal Reasoning#Perception-Centric#Long-Horizon#Test-Time Thinking2026년 4월 1일댓글 수 로딩 중
[논문리뷰] WorldCompass: Reinforcement Learning for Long-Horizon World Models본 논문은 상호작용적 비디오 기반 세계 모델(world models)의 장기적인 탐색 정확도와 일관성을 향상시키기 위해, 강화 학습(RL) 기반의 후처리 훈련 프레임워크인 WorldCompass 를 제안합니다.#Review#Reinforcement Learning#World Models#Video Generation#Autoregressive Generation#Long-Horizon#Post-training#Diffusion Models#Reward Functions2026년 2월 9일댓글 수 로딩 중