#Long-horizon Tasks

8개의 포스트

[논문리뷰] Dual Latent Memory in Vision-Language-Action Models for Robotic Manipulation

본 논문은 기존 VLA 모델들이 지닌 Markovian assumption으로 인한 temporal short-horizon bias를 해결하고자 합니다 .

#Review #Vision-Language-Action Models #Latent Memory #Robotic Manipulation #Long-horizon Tasks #Dual-scale Vault #Memory-augmented Reasoning

2026년 7월 8일

[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.

#Review #Language Agents #Terminal Environments #Zero-dependency Synthesis #Supervised Fine-tuning #Direct Multi-turn Preference Optimization #Long-horizon Tasks

2026년 5월 28일

[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #EHR #Benchmark #FHIR #Clinical Workflows #Agentic Evaluation #Long-horizon Tasks

2026년 5월 4일

[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Programming #CLI #Benchmark #Long-horizon Tasks #Code Generation #LLM Evaluation #Human-Agent Collaboration #Software Engineering

2026년 2월 24일

[논문리뷰] VideoWorld 2: Learning Transferable Knowledge from Real-world Videos

본 연구는 복잡하고 장기적인 태스크를 위해 레이블이 없는 실세계 비디오 데이터 로부터 전이 가능한 지식을 학습하는 것을 목표로 합니다.

#Review #Transferable Knowledge #Real-world Video Learning #Latent Dynamics Model #Video Diffusion #Robotics Manipulation #Long-horizon Tasks #Unlabeled Data

2026년 2월 10일

[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agent (CUA)#Multi-Agent Framework #Long-horizon Tasks #Memory Management #Multimodal Retrieval #Reflection #Generalization

2026년 1월 12일

[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge

2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.

#Review #Embodied AI #Long-horizon Tasks #Vision-Language-Action Models (VLA)#BEHAVIOR Challenge #Offline RL #Pre-training #Rejection Sampling Fine-Tuning (RFT)#Robotics

2025년 12월 15일

[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents

본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.

#Review #LLM Agents #Context Compression #Long-horizon Tasks #Prompt Optimization #Knowledge Distillation #Memory Efficiency #Task Performance #Failure Analysis

2025년 10월 2일