[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.#Review#Language Agents#Terminal Environments#Zero-dependency Synthesis#Supervised Fine-tuning#Direct Multi-turn Preference Optimization#Long-horizon Tasks2026년 5월 28일댓글 수 로딩 중
[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.#Review#LLM Agents#EHR#Benchmark#FHIR#Clinical Workflows#Agentic Evaluation#Long-horizon Tasks2026년 5월 4일댓글 수 로딩 중
[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.#Review#Agentic Programming#CLI#Benchmark#Long-horizon Tasks#Code Generation#LLM Evaluation#Human-Agent Collaboration#Software Engineering2026년 2월 24일댓글 수 로딩 중
[논문리뷰] VideoWorld 2: Learning Transferable Knowledge from Real-world Videos본 연구는 복잡하고 장기적인 태스크를 위해 레이블이 없는 실세계 비디오 데이터 로부터 전이 가능한 지식을 학습하는 것을 목표로 합니다.#Review#Transferable Knowledge#Real-world Video Learning#Latent Dynamics Model#Video Diffusion#Robotics Manipulation#Long-horizon Tasks#Unlabeled Data2026년 2월 10일댓글 수 로딩 중
[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Computer-Using Agent (CUA)#Multi-Agent Framework#Long-horizon Tasks#Memory Management#Multimodal Retrieval#Reflection#Generalization2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Openpi Comet: Competition Solution For 2025 BEHAVIOR Challenge2025 BEHAVIOR Challenge에서 물리적 에이전트 가 시뮬레이션 환경에서 장기적인 작업을 성공적으로 수행하는 문제에 집중하며, 기존 Vision-Language-Action (VLA) 모델 의 한계를 극복하는 것을 목표로 합니다.#Review#Embodied AI#Long-horizon Tasks#Vision-Language-Action Models (VLA)#BEHAVIOR Challenge#Offline RL#Pre-training#Rejection Sampling Fine-Tuning (RFT)#Robotics2025년 12월 15일댓글 수 로딩 중
[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.#Review#LLM Agents#Context Compression#Long-horizon Tasks#Prompt Optimization#Knowledge Distillation#Memory Efficiency#Task Performance#Failure Analysis2025년 10월 2일댓글 수 로딩 중