[논문리뷰] Policy and World Modeling Co-Training for Language Agents본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.#Review#Language Agents#Reinforcement Learning#World Modeling#Co-Training#On-policy RL#Clipped MAE#Reward-adaptive Loss2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.#Review#Language Agents#Terminal Environments#Zero-dependency Synthesis#Supervised Fine-tuning#Direct Multi-turn Preference Optimization#Long-horizon Tasks2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes본 논문은 기계학습 연구의 제안-측정-수정 루프를 인간의 개입 없이 언어 모델 에이전트로 자동화하는 것을 목표로 합니다. 기존의 자동화 연구들이 주로 단일 모델 출력물 생성이나 제한적인 하이퍼파라미터 탐색에 머물렀던 것과 달리, 이 연구는 실제 학습 파이프라인 전반에 걸친 실질적인 코드 구조 수정을 목표로 합니다.#Review#Auto Research#Language Agents#Closed-Loop#Training Recipes#Specialist Agents#Compute-Budgeted#Lineage Feedback2026년 5월 7일댓글 수 로딩 중
[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.#Review#Test-Time Learning#Language Agents#Meta-Learning#Evolutionary Optimization#Adaptive Policy#LLM Agents#Prompt Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.#Review#Language Agents#Benchmarking#Expert Evaluation#Economic Value#Professional Tasks#Rubric-based Evaluation#Multi-step Reasoning#Reliability#Domain Adaptation2026년 3월 9일댓글 수 로딩 중
[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.#Review#Large Language Models#Language Agents#Long Context#Context Rot#Benchmarking#Context Management#Tool Use#Agent Evaluation#Dynamic Environments2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration본 논문은 복잡하고 장기적인 AI 태스크를 해결하기 위한 에이전트 시스템에서 동적인 서브 에이전트 생성 및 관리의 한계 를 극복하고자 합니다.#Review#Agentic Orchestration#Sub-Agent Creation#Language Agents#Dynamic Specialization#Context Management#Tool Use#Large Language Models#Cost-Performance Optimization2026년 2월 3일댓글 수 로딩 중
[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.#Review#Language Agents#Tool Use#Benchmarks#Model Context Protocol (MCP)#LLM Evaluation#Agentic AI#Real-World Performance2025년 9월 15일댓글 수 로딩 중
[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution이 논문은 기존 언어 에이전트 벤치마크가 현실 세계의 다양성, 복잡성 및 장기적인 태스크 실행 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#Language Agents#Tool Use#Benchmarking#Long-Horizon Tasks#Realistic Environments#Multi-Application#Execution-Based Evaluation#Model Context Protocol (MCP)2025년 10월 30일댓글 수 로딩 중
[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.#Review#Search Agents#Interactive AI#Ambiguous Queries#Benchmarking#Language Agents#Information Retrieval#Overconfidence#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.#Review#Language Agents#Language Server Protocol (LSP)#CLI#Process Rewards#Code Refactoring#Static Analysis#Reinforcement Learning#Deterministic Execution2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Agent Learning via Early Experience본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.#Review#Language Agents#Early Experience#Reward-Free Learning#World Modeling#Self-Reflection#Imitation Learning#Reinforcement Learning#Out-of-Domain Generalization2025년 10월 10일댓글 수 로딩 중