#Language Agents

12개의 포스트

[논문리뷰] Policy and World Modeling Co-Training for Language Agents

본 논문은 LLM Agent가 표준 RL 학습 과정에서 보상 최적화에만 치중하여 환경의 결과 예측 능력을 결여하는 문제를 해결합니다. 기존 연구들은 별도의 시뮬레이터나 복잡한 다단계 학습, 혹은 추론 시 추가 연산을 요구하여 시스템 복잡도를 높이는 한계가 있었습니다.

#Review #Language Agents #Reinforcement Learning #World Modeling #Co-Training #On-policy RL #Clipped MAE #Reward-adaptive Loss

2026년 6월 1일

[논문리뷰] LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

본 논문은 기존의 터미널 에이전트 학습이 외부 리포지토리에 의존하는 방식의 한계로 인해 데이터 다양성, 환경 제어력, 특정 능력 결함 해결에 어려움을 겪는 문제를 해결합니다.

#Review #Language Agents #Terminal Environments #Zero-dependency Synthesis #Supervised Fine-tuning #Direct Multi-turn Preference Optimization #Long-horizon Tasks

2026년 5월 28일

[논문리뷰] Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

본 논문은 기계학습 연구의 제안-측정-수정 루프를 인간의 개입 없이 언어 모델 에이전트로 자동화하는 것을 목표로 합니다. 기존의 자동화 연구들이 주로 단일 모델 출력물 생성이나 제한적인 하이퍼파라미터 탐색에 머물렀던 것과 달리, 이 연구는 실제 학습 파이프라인 전반에 걸친 실질적인 코드 구조 수정을 목표로 합니다.

#Review #Auto Research #Language Agents #Closed-Loop #Training Recipes #Specialist Agents #Compute-Budgeted #Lineage Feedback

2026년 5월 7일

[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.

#Review #Test-Time Learning #Language Agents #Meta-Learning #Evolutionary Optimization #Adaptive Policy #LLM Agents #Prompt Engineering

2026년 4월 6일

[논문리뷰] $OneMillion-Bench: How Far are Language Agents from Human Experts?

기존 벤치마크가 실세계 전문직업의 복잡한 요구사항을 충분히 반영하지 못하고, 언어 에이전트의 실제 경제적 가치 창출 능력을 측정하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Language Agents #Benchmarking #Expert Evaluation #Economic Value #Professional Tasks #Rubric-based Evaluation #Multi-step Reasoning #Reliability #Domain Adaptation

2026년 3월 9일

[논문리뷰] LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth

본 논문은 대규모 언어 모델(LLMs) 기반의 언어 에이전트가 실세계의 장기 실행 태스크를 수행할 때 발생하는 '컨텍스트 로트(context rot)' 현상, 즉 컨텍스트 길이가 증가함에 따른 성능 저하 문제를 해결하고자 합니다.

#Review #Large Language Models #Language Agents #Long Context #Context Rot #Benchmarking #Context Management #Tool Use #Agent Evaluation #Dynamic Environments

2026년 2월 9일

[논문리뷰] AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration

본 논문은 복잡하고 장기적인 AI 태스크를 해결하기 위한 에이전트 시스템에서 동적인 서브 에이전트 생성 및 관리의 한계 를 극복하고자 합니다.

#Review #Agentic Orchestration #Sub-Agent Creation #Language Agents #Dynamic Specialization #Context Management #Tool Use #Large Language Models #Cost-Performance Optimization

2026년 2월 3일

[논문리뷰] MCP-AgentBench: Evaluating Real-World Language Agent Performance with MCP-Mediated Tools

본 논문은 Model Context Protocol (MCP)을 통해 도구를 사용하는 언어 에이전트의 실제 성능을 정확하게 평가할 수 있는 표준화된 벤치마크의 부재 문제를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarks #Model Context Protocol (MCP)#LLM Evaluation #Agentic AI #Real-World Performance

2025년 9월 15일

[논문리뷰] The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

이 논문은 기존 언어 에이전트 벤치마크가 현실 세계의 다양성, 복잡성 및 장기적인 태스크 실행 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #Language Agents #Tool Use #Benchmarking #Long-Horizon Tasks #Realistic Environments #Multi-Application #Execution-Based Evaluation #Model Context Protocol (MCP)

2025년 10월 30일

[논문리뷰] InteractComp: Evaluating Search Agents With Ambiguous Queries

본 논문은 기존 검색 에이전트들이 사용자 질의를 완전하고 명확하다고 가정하지만, 실제 사용자들은 종종 불완전하고 모호한 질의로 시작하여 상호작용을 통한 명확화가 필요하다는 문제점을 제기합니다.

#Review #Search Agents #Interactive AI #Ambiguous Queries #Benchmarking #Language Agents #Information Retrieval #Overconfidence #Reinforcement Learning

2025년 10월 29일

[논문리뷰] Language Server CLI Empowers Language Agents with Process Rewards

대규모 언어 모델(LLM) 기반의 언어 에이전트가 코드 관련 태스크에서 겪는 API 환각 및 코드 변경 오류 문제를 해결하고자 합니다.

#Review #Language Agents #Language Server Protocol (LSP)#CLI #Process Rewards #Code Refactoring #Static Analysis #Reinforcement Learning #Deterministic Execution

2025년 10월 28일

[논문리뷰] Agent Learning via Early Experience

본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.

#Review #Language Agents #Early Experience #Reward-Free Learning #World Modeling #Self-Reflection #Imitation Learning #Reinforcement Learning #Out-of-Domain Generalization

2025년 10월 10일