#LLM Agents

204개의 포스트

[논문리뷰] Tracing Agentic Failure from the Flow of Success

본 논문은 LLM 기반 에이전트 시스템의 실패를 자동으로 진단할 때 발생하는 비용과 비효율성 문제를 해결하기 위해 Oat를 제안한다.

#Review #LLM Agents #Failure Attribution #Unsupervised Learning #Neural CDE #One-Class Learning #Anomaly Detection #Agentic Systems

2026년 7월 15일

[논문리뷰] Automating the Design of Embodied Agent Architectures

본 연구는 기존의 수동적인 Embodied 에이전트 아키텍처 설계 방식에서 벗어나, 이를 자동화(AAS)할 수 있는지 검증하고자 합니다 .

#Review #Embodied Agents #Agent Architecture Search #LLM Agents #AgentCanvas #KDLoop

2026년 7월 8일

[논문리뷰] When Classic Cache Policies Fail: Learning-Augmented Replacement for Semantic Retrieval Buffers

본 논문은 기존의 FIFO, LRU, LFU 등 고전적인 캐시 정책이 LLM 에이전트의 semantic 워크로드에서 체계적으로 실패한다는 문제를 정의한다.

#Review #Semantic Caching #LLM Agents #Cache Replacement #Online Learning #Thompson Sampling #Regret Bounds

2026년 7월 7일

[논문리뷰] Safety Testing LLM Agents at Scale: From Risk Discovery to Evidence-Grounded Verification

본 논문은 기존의 LLM 에이전트 안전성 평가 방식이 고정된 규칙과 전문가의 수동 설계에 의존하여, 에이전트의 급격한 진화와 도구 생태계의 복잡성을 따라가지 못하는 한계를 해결하고자 합니다 .

#Review #LLM Agents #Safety Testing #Evidence-Grounded Verification #Automated Red-Teaming #Software Engineering #Sandboxed Execution

2026년 7월 6일

[논문리뷰] Mastermind: Strategy-grounded Learning for Repository-Scale Vulnerability Reproduction

본 논문은 대규모 저장소 수준의 취약점 재현 과정에서 LLM 에이전트가 겪는 핵심 병목 현상이 저수준의 명령어 실행이 아닌 고수준의 전략 선택에 있음을 지적한다 .

#Review #Vulnerability Reproduction #LLM Agents #Strategy-grounded Learning #Dual-loop Framework #GRPO #Repository-Scale SE

2026년 7월 6일

[논문리뷰] SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

본 논문은 기존의 LLM Agent 평가 방식이 최종적인 Verifier 성공 여부에만 의존하여, 실제 과정상의 비효율이나 부적절한 Skill 사용 방식을 간과하는 문제를 해결하고자 한다.

#Review #Agentic Skill-Use #Self-Evolving Rubrics #Process Supervision #Skill Libraries #Trajectory Evaluation #LLM Agents #SFT

2026년 7월 2일

[논문리뷰] PACE: A Proxy for Agentic Capability Evaluation

본 논문은 Agentic Benchmark 평가의 극심한 비용 및 복잡성 문제를 해결하기 위해 Non-Agentic 데이터를 프록시(Proxy)로 활용하는 방안을 제안한다. 기존 에이전트 벤치마크는 복잡한 인프라와 긴 수행 시간으로 인해 평가 빈도가 제한적이며 접근성이 떨어진다.

#Review #LLM Agents #Agentic Evaluation #Benchmark Compression #Instance Selection #Proxy Framework #Model Capabilities

2026년 7월 2일

[논문리뷰] QVal: Cheaply Evaluating Dense Supervision Signals for Long-Horizon LLM Agents

본 논문은 Long-horizon LLM Agent의 학습을 저해하는 희소 보상(Sparse Reward) 문제를 해결하기 위한 dense supervision 방법론들을 효율적으로 평가하고자 합니다 .

#Review #LLM Agents #Dense Supervision #Reinforcement Learning #Q-alignment #Evaluation Benchmark #Long-Horizon #Training-Free

2026년 6월 30일

[논문리뷰] Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

본 연구는 LLM 기반 에이전트가 현실 업무에서 반복적인 절차를 수행할 때 발생하는 Procedural Memory의 재사용성 문제를 해결하고자 한다. 기존 연구들은 로컬 환경에서의 단기 성능 향상에 집중하여, 서로 다른 태스크, 역할(Role), 모델 Backbone 간의 실질적인 전이 성능을 충분히 평가하지 못했다.

#Review #LLM Agents #Procedural Memory #Skill Transfer #Benchmark #Agent Evolution #Task Generalization

2026년 6월 30일

[논문리뷰] PolicyGuard: A Dialogue-Grounded Sub-Agent Verifier for Policy Adherence in LLM Agents

본 논문은 기존의 Safeguarding 기술이 주로 악의적인 콘텐츠나 jailbreak 방지에만 치중하고 있어, 에이전트의 복잡한 절차적 정책 준수(Policy adherence) 문제를 해결하는 데 한계가 있다는 점을 지적합니다 .

#Review #LLM Agents #Policy Adherence #Dialogue-Grounded #Verifier #Tool-Calling #Safeguarding #Procedural Compliance

2026년 6월 29일

[논문리뷰] Agentic Abstention: Do Agents Know When to Stop Instead of Act?

본 논문은 LLM 기반 에이전트가 불가능하거나 모호한 작업을 수행할 때 무분별하게 액션을 지속하는 문제를 해결하고자 한다.

#Review #Agentic Abstention #LLM Agents #Context Engineering #Sequential Decision Making #Tool Use #Timely Recall

2026년 6월 29일

[논문리뷰] CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies

본 논문은 기존 LLM 에이전트 벤치마크가 단일 에이전트나 동질적인 환경에 국한되어, 현실적인 경제 시스템의 복잡성을 반영하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #Long-Horizon #Multi-Agent Economy #Benchmark #Supply Chain #Decision-making

2026년 6월 25일

[논문리뷰] When Lower Privileges Suffice: Investigating Over-Privileged Tool Selection in LLM Agents

본 논문은 LLM 에이전트가 작업 수행 시 불필요하게 높은 권한의 도구를 선택하는 Over-privileged Tool Selection의 심각성과 그 기저의 행동적 원인을 규명합니다 .

#Review #LLM Agents #Tool Selection Bias #Least Privilege #Privilege-Aware Post-Training #Agent Safety #ToolPrivBench

2026년 6월 24일

[논문리뷰] Are We Ready For An Agent-Native Memory System?

본 논문은 기존 에이전트 메모리 시스템이 단일 블랙박스로 취급되면서 시스템 수준의 효율성, 아키텍처적 트레이드오프, 그리고 동적 지식 업데이트에 대한 견고성이 체계적으로 검증되지 않고 있다는 문제를 해결하고자 한다.

#Review #Agent Memory #Data Management #LLM Agents #Retrieval-Augmented Generation #Memory Architecture #Knowledge Graphs #System Evaluation

2026년 6월 24일

[논문리뷰] Escaping the Self-Confirmation Trap: An Execute-Distill-Verify Paradigm for Agentic Experience Learning

본 연구는 LLM 기반 에이전트의 자가 진화(Self-evolution) 과정에서 발생하는 Self-Confirmation Trap 문제를 해결하고자 합니다.

#Review #LLM Agents #Experience Learning #Self-Confirmation Trap #Multi-Agent Collaboration #Memory Construction #Heterogeneous Execution

2026년 6월 23일

[논문리뷰] Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

본 논문은 현대의 LLM 에이전트가 단일 점수 기반의 정적 리더보드로는 충분히 평가될 수 없으며, 이로 인해 Rank Instability가 발생한다는 점을 지적합니다.

#Review #LLM Agents #Predictive Validity #Benchmark #Evaluation #Out-of-Distribution #MCP #Leaderboard

2026년 6월 18일

[논문리뷰] TokenPilot: Cache-Efficient Context Management for LLM Agents

본 논문은 LLM 에이전트의 세션이 길어짐에 따라 발생하는 컨텍스트 누적과 이로 인한 기하급수적인 추론 비용 문제를 해결하고자 합니다. 기존의 텍스트 가지치기(Pruning)나 동적 메모리 제거 기법들은 시퀀스의 레이아웃을 임의로 변경하여 프롬프트 접두사의 연속성을 깨뜨립니다.

#Review #LLM Agents #Context Management #Prompt Caching #KV Cache #Inference Cost #Ingestion-Aware Compaction #Lifecycle-Aware Eviction

2026년 6월 15일

[논문리뷰] The Arbiter Agent: Continually Monitoring Multi-Agent Conversations to Detect Emergent Misalignment

본 논문은 독립적으로는 정렬된(Aligned) 에이전트들이 상호작용하며 발생하는 예측 불가능한 시스템 레벨의 위험을 감지하기 위한 실시간 감사 프레임워크를 제안한다.

#Review #Multi-agent Safety #Emergent Misalignment #Alignment Auditing #LLM Agents #AI Control #Budget-constrained Monitoring

2026년 6월 14일

[논문리뷰] Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

본 논문은 LLM 에이전트가 복잡한 장기 상호작용 기록에서 장기 기억을 효과적으로 활용하지 못하는 근본적인 원인을 지적합니다.

#Review #LLM Agents #Memory Reconstruction #Graph Memory #Associative Memory #Active Retrieval #Long-horizon Reasoning

2026년 6월 14일

[논문리뷰] Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

본 논문은 Compact Language Models 기반의 에이전트가 복잡한 MCP 도구 사용 환경에서 겪는 구조적 취약성과 낮은 실행 성공률 문제를 해결하고자 합니다.

#Review #Tool-use #Compact Language Models #Inference-time Evolution #Executable Workflow #MCP-Bench #LLM Agents #Evolutionary Search

2026년 6월 11일

[논문리뷰] Role-Agent: Bootstrapping LLM Agents via Dual-Role Evolution

본 연구는 고성능 LLM Agents를 구축하는 과정에서 직면하는 데이터 희소성과 정밀한 추론 전략의 부재를 해결하는 데 초점을 둡니다.

#Review #LLM Agents #Dual-Role Evolution #Self-Play #Knowledge Bootstrapping #Task Planning #Iterative Refinement

2026년 6월 9일

[논문리뷰] Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts

본 연구는 복잡한 Task를 수행하는 LLM Agent가 고정된 추론 방식에 의존하여 Suboptimal한 경로를 생성하는 문제를 해결하고자 한다.

#Review #LLM Agents #Trajectory Optimization #Self-Preference #Reinforcement Learning #Alignment #Inference Optimization

2026년 6월 9일

[논문리뷰] LatentSkill: From In-Context Textual Skills to In-Weight Latent Skills for LLM Agents

본 논문은 LLM Agent가 외부 기술을 프롬프트에 직접 주입할 때 발생하는 컨텍스트 오버헤드와 보안 노출 문제를 해결하고자 합니다. 기존의 In-Context Skill 방식은 매 단계마다 기술 텍스트를 삽입해야 하므로 추론 비용이 높고, 프롬프트 내에 기술 내용이 그대로 노출되어 공격에 취약하다는 단점이 있습니다.

#Review #LLM Agents #LoRA #Hypernetworks #Skill Composition #Weight Space #Prompt Efficiency #Modular Learning

2026년 6월 8일

[논문리뷰] Honest Lying: Understanding Memory Confabulation in Reflexive Agents

본 논문은 Reflexion과 같은 에이전트가 자가 생성한 피드백에 의존할 때 발생하는 'Memory Confabulation' 문제를 해결하고자 합니다. 기존 연구는 에이전트가 스스로 자신의 실패를 정확히 진단할 수 있다고 가정하지만, 저자들은 이 가정이 체계적으로 실패할 수 있음을 입증합니다.

#Review #Reflexive Agents #Memory Confabulation #Reflexion #ALFWorld #LLM Agents #Programmatic Feedback Extraction #Reflection Repetition Rate

2026년 6월 8일

[논문리뷰] When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

본 논문은 기존의 LLM 에이전트 벤치마크들이 이상적인 'Happy Path' 환경만을 상정하여, 현실의 불안정한 도구 실행 및 오류 상황을 제대로 평가하지 못하는 한계를 지적한다.

#Review #LLM Agents #Tool-Integrated Reasoning #Fault-Tolerance #Dynamic Replanning #Anomaly Recovery #Benchmark #DAG-based Task Generation

2026년 6월 7일

[논문리뷰] SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agents

본 연구는 장기 기억을 가진 AI 에이전트가 축적된 기억들 간의 복잡한 관계를 정확히 이해하고 활용하지 못하는 근본적인 문제를 해결하고자 합니다.

#Review #Long-Horizon AI Agents #Long-term Memory #Relational Memory #Benchmarking #LLM Agents #Knowledge Discrimination

2026년 6월 7일

[논문리뷰] OpenSkill: Open-World Self-Evolution for LLM Agents

본 논문은 LLM 에이전트가 배포 후 외부의 정답이나 지도 없이 스스로 학습할 수 있는 'Open-World Self-Evolution' 환경에서의 불확실성을 해결하고자 합니다 .

#Review #Open-World Self-Evolution #LLM Agents #Supervision-Free #Skill Evolution #Virtual Verifier #Knowledge Acquisition #Model Transferability

2026년 6월 7일

[논문리뷰] HarnessForge: Joint Harness and Policy Evolution for Adaptive Agent Systems

본 논문은 LLM agent 시스템의 Meta-adaptation을 수행할 때 발생하는 '실행 호환성(Executable Compatibility) 결여' 문제를 해결합니다.

#Review #LLM Agents #Meta-Adaptation #Harness-Policy Co-evolution #Agent System Design #Reasoning Policy Alignment

2026년 6월 7일

[논문리뷰] TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration

본 논문은 기존 LLM 에이전트가 사용자 요청에만 의존하는 수동적(Reactive) 모델이라는 점을 문제로 정의합니다. 실제 환경에서는 사용자가 미처 인지하지 못한 다수의 잠재적 문제가 존재함에도 불구하고, 기존 방식은 가장 눈에 띄는 문제 하나에만 집중하거나 일반적인 추론에 그치는 경향이 있습니다.

#Review #Proactive Agents #Multi-Problem Discovery #Thought Templates #Iterative Discovery #LLM Agents #Context Understanding

2026년 6월 4일

[논문리뷰] Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

본 논문은 메모리 기반 LLM agent가 장기적인(long-horizon) 과업 수행 시 발생하는 성능 저하 문제를 해결하기 위해 연구되었습니다.

#Review #LLM Agents #Long-Horizon Reasoning #Belief Entropy #Memory Optimization #Reinforcement Learning #Metacognition

2026년 6월 4일

[논문리뷰] MLEvolve: A Self-Evolving Framework for Automated Machine Learning Algorithm Discovery

본 논문은 기존의 LLM 기반 Machine Learning Engineering(MLE) 에이전트들이 겪고 있는 정보 고립, 메모리 부족, 비효율적인 long-horizon 최적화 문제를 해결하기 위해 MLEvolve를 제안합니다.

#Review #Automated Machine Learning #LLM Agents #Monte Carlo Graph Search #Self-Evolving #Long-Horizon Optimization #Algorithm Discovery

2026년 6월 4일

[논문리뷰] ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment

본 논문은 자율 연구 에이전트가 기술의 미래 발전 방향을 예측하는 의사결정 영역에서 얼마나 타당한 판단을 내릴 수 있는지에 대한 근본적인 의문을 제기합니다.

#Review #LLM Agents #Foresight Evaluation #Scientific Judgment #Temporal Integrity #Benchmark #Research Forecasting

2026년 6월 4일

[논문리뷰] MemTrain: Self-Supervised Context Memory Training

본 논문은 장기적인 컨텍스트를 처리해야 하는 LLM 에이전트에서 Memory 병목 현상을 해결하는 것을 핵심 문제로 다룹니다 . 기존의 연구들은 전체 입력 기록을 컨텍스트에 모두 포함시키는 방식을 사용했으나, 이는 계산 비용의 급격한 증가를 초래합니다.

#Review #LLM Agents #Context Memory #Self-Supervised Learning #Reinforcement Learning #GRPO #Long-Horizon Reasoning

2026년 6월 3일

[논문리뷰] Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

본 논문은 기존 LLM 에이전트 프레임워크가 가지는 보안 경계의 모호함과 장기 실행 에이전트에 대한 인프라 부족 문제를 해결하기 위해 Agent libOS를 제안합니다.

#Review #LLM Agents #Library OS #Runtime Security #Capability-based Security #Object Memory #Tool-use #System Architecture

2026년 6월 3일

[논문리뷰] ClawHub Security Signals: When VirusTotal, Static Analysis, and SkillSpector Disagree

본 논문은 LLM 에이전트 생태계에서 핵심 소프트웨어 단위인 Agent Skills의 보안 문제를 다루며, 서로 다른 보안 스캐너(VirusTotal, Static Analysis, SkillSpector)들이 동일한 스킬에 대해 불일치하는 결과를 보일 때 이를 어떻게 해석하고 대응할 것인지에 대한 문제를 제기한다.

#Review #Agent Skills #LLM Agents #Software Supply Chain #Security Scanning #Scanner Disagreement #Trust Artifacts #OpenClaw

2026년 6월 2일

[논문리뷰] SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories

본 논문은 기존 LLM 에이전트의 기술 적응 방식이 장기 과제(Long-horizon tasks)에서 가지는 한계를 해결하고자 합니다.

#Review #LLM Agents #Skill Adaptation #Failure Attribution #Trajectory-level #Step-level #Training-free

2026년 6월 1일

[논문리뷰] Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents

본 논문은 LLM agent의 성능 향상을 위해 사용되는 기존의 skill library들이 모델의 용량(capacity)이나 행동 특성을 고려하지 않는 'model-agnostic' 방식으로 설계되었다는 한계를 지적합니다.

#Review #LLM Agents #Skill Alignment #Model-Aware #Hierarchical Evolution #In-Context Learning #Action Optimization

2026년 6월 1일

[논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation

본 논문은 기존의 에이전트 벤치마크가 범용 도구 사용에만 집중되어 있어, 실제 사용자의 계정 및 로컬 데이터와 밀접하게 연동되는 개인화된 앱에서의 성능을 평가하지 못하는 문제를 해결하고자 한다.

#Review #Model Context Protocol #LLM Agents #Personalized Applications #Environment Simulation #Benchmarking #Tool-Traverse

2026년 6월 1일

[논문리뷰] OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

본 논문은 급격히 팽창하는 LLM Agent용 Skill 생태계에서 발생하는 평가의 불투명성과 비효율성 문제를 해결하고자 합니다. 현재 커뮤니티에서 배포되는 수많은 Skill들이 실제 성능 향상에 기여하는지, 혹은 특정 모델과 프레임워크에서 어떻게 상호작용하는지에 대한 체계적인 분석이 부재합니다.

#Review #LLM Agents #Agent Skills #Automatic Evaluation #Skill Ecosystem #Benchmarking #Trajectory Trace Analysis #Artifact Evaluation

2026년 5월 31일

[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .

#Review #Agentic Data Analysis #Long-Horizon #State Management #Benchmark #LLM Agents #State-Evolution

2026년 5월 31일

[논문리뷰] Exploring Autonomous Agentic Data Engineering for Model Specialization

본 논문은 LLM이 인간의 설계 없이 데이터 엔지니어링 파이프라인을 자율적으로 수행하여 모델 특화(Model Specialization)를 달성할 수 있는지에 대한 근본적인 의문을 해결하고자 한다 .

#Review #Autonomous Agentic Data Engineering #Model Specialization #LLM Agents #Data Synthesis #Closed-loop Optimization #End-to-End Pipeline

2026년 5월 31일

[논문리뷰] Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

본 논문은 자율적 LLM 에이전트들이 인간의 감시를 회피하기 위해 독자적인 언어를 발명하고 사용하는 현상을 규명하고자 한다.

#Review #LLM Agents #Emergent Languages #Oversight Evasion #Steganography #In-context Acquisition #Moltbook

2026년 5월 31일

[논문리뷰] COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

본 논문은 LLM agent가 단순히 단일 명령을 수행하는 수준을 넘어, 특정 전문가의 판단력과 행동 양식을 신뢰성 있게 재현해야 하는 요구를 해결하고자 합니다. 기존 시스템은 개인의 전문 지식을 파편화된 기억(Memory)이나 불투명한 프롬프트로 저장하여 관리와 수정이 어렵다는 한계가 있습니다 .

#Review #LLM Agents #Knowledge Distillation #Person-Grounded Skill #Artifact Engineering #Trace-to-Skill #Skill Package

2026년 5월 31일

[논문리뷰] CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

본 논문은 기존의 인과 추론 벤치마크가 LLM의 진정한 인과적 사고를 평가하기보다 암기된 지식에 의존하는 'Causal parrot' 문제를 해결하기 위해 CausaLab을 제안한다 .

#Review #Causal Discovery #LLM Agents #Structural Causal Models #Interactive Benchmarking #Scientific Discovery #Mechanism Recovery

2026년 5월 28일

[논문리뷰] SkillGrad: Optimizing Agent Skills Like Gradient Descent

본 논문은 LLM 에이전트의 도메인 적응력을 높이기 위한 Agent Skills가 흔히 불완전하거나, 시대에 뒤떨어지거나, 신뢰할 수 없다는 문제를 해결하고자 합니다.

#Review #Agent Skills #Gradient Descent #Skill Evolution #LLM Agents #Procedural Knowledge #Structured Optimization #Textual Momentum

2026년 5월 27일

[논문리뷰] AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

본 논문은 과학적 탐구의 장기적인 연구 과정에서 발생하는 비효율적인 실험 반복과 고립된 탐색 문제를 해결하기 위해 AutoScientists를 제안합니다 .

#Review #Multi-agent Systems #Scientific Experimentation #Self-Organization #Autonomous Discovery #LLM Agents #BioML-Bench

2026년 5월 27일

[논문리뷰] SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills

본 논문은 LLM Agents가 실제 작업을 해결하면서 축적하는 풍부한 Episodic Experience가 재사용 가능한 Procedural Skills로 증류될 수 있는지 여부가 불분명하다는 핵심 문제를 제기한다.

#Review #LLM Agents #Procedural Skills #Skill Formation #Episodic Experience #Benchmarking #Skill Evolution #Abstraction Bottleneck #Deployment Transfer

2026년 5월 25일

[논문리뷰] Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

현재 Large Language Model(LLM) 기반 agent 시스템은 user의 digital world 중 매우 제한적인 부분에만 접근하여 context-sensitive reasoning과 효과적인 assistance 제공에 심각한 한계를 보입니다.

#Review #Personal Assistant Agents #Benchmark #Context-Aware Reasoning #Multi-device Interaction #Proactive Assistance #Long-horizon Event Streams #LLM Agents #Digital World

2026년 5월 25일

[논문리뷰] On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

본 연구는 급증하는 과학 연구 논문 생산량에 따른 피어 리뷰 시스템의 확장성 문제를 해결하기 위해 도입된 AI Reviewers의 역량과 신뢰성을 객관적으로 평가하는 것을 목표로 합니다.

#Review #AI Reviewers #Peer Review #LLM Agents #Scientific Evaluation #Expert Annotation

2026년 5월 20일

[논문리뷰] MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization

본 논문은 LLM agent의 skill 최적화가 근본적으로 다목적(multi-objective) 문제임에도 불구하고, 기존 방식들이 이를 단일 목적 함수로 축소함으로써 발생하는 비효율성을 해결하고자 합니다.

#Review #Multi-Objective Optimization #LLM Agents #Skill Optimization #Chebyshev Scalarization #Hypervolume #Prompt Engineering #Constraint Satisfaction

2026년 5월 20일

[논문리뷰] SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

본 연구는 대규모 오픈소스 Skill 생태계의 비정형성, 중복성, 품질 불균형 문제를 해결하고 에이전트의 효율적인 경험 재사용을 가능하게 하는 체계적인 거버넌스 프레임워크를 제안합니다.

#Review #LLM Agents #Agent Skills #Lifecycle Governance #Skill Recommendation #Attribution #Skill Evolution

2026년 5월 18일

[논문리뷰] Look Before You Leap: Autonomous Exploration for LLM Agents

본 논문은 현대의 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 조기 착취(Premature Exploitation) 문제에 빠지는 현상을 해결하고자 합니다.

#Review #LLM Agents #Autonomous Exploration #RLVR #GRPO #Exploration Checkpoint Coverage #Explore-then-Act

2026년 5월 17일

[논문리뷰] Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

본 연구는 Recursive Self-Improvement의 일환으로 LLM 에이전트가 기존 Transformer 패러다임을 넘어선 차세대 foundation model을 자율적으로 설계할 수 있는지 탐구합니다.

#Review #Neural Architecture Search #Foundation Models #LLM Agents #Recursive Self-Improvement #Hybrid Architectures #AIRS-Bench

2026년 5월 17일

[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?

본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.

#Review #LLM Agents #Long-term Memory #Implicit Conflict #State Tracking #Belief Revision #Adjudication

2026년 5월 14일

[논문리뷰] SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks

본 연구는 산업용 LLM 에이전트 시스템에서 발생하는 계획의 구조적 불일치와 비효율적인 실행 비용 문제를 해결하고자 합니다. 기존 LLM 플래너는 언어적 추론에는 능하지만, 실제 산업 현장에서 요구되는 구조적 유효성을 보장하지 못해 빈번한 실행 실패를 야기합니다.

#Review #LLM Agents #Industrial Asset Operations #DAG #Prefix-based Execution Control #AssetOpsBench #Validator #Simulator-Critic

2026년 5월 14일

[논문리뷰] EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents

기존 LLM agent의 기억 시스템은 저장된 데이터(콘텐츠)는 진화하지만, 이를 검색하는 Retrieval 인프라가 배포 시점에 고정되어 있어 시간 경과에 따른 최적화 불일치(Mismatch)가 발생한다.

#Review #LLM Agents #Long-term Memory #AutoResearch #Self-evolving Architecture #Retrieval-Augmented Generation

2026년 5월 14일

[논문리뷰] RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

본 논문은 기존의 ICU 벤치마크들이 임상 의사결정을 단순한 정적 문제로 치부하거나, 과거 임상 기록을 그대로 정답으로 간주하는 'Behavior Imitation' 오류에 빠져 있다는 점을 지적한다.

#Review #LLM Agents #ICU #Clinical Decision Support #Hindsight-Annotated Benchmark #Structured Memory #Sequential Decision-Making

2026년 5월 13일

[논문리뷰] PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents

본 논문은 기존 GraphRAG 시스템이 직면한 정적 온톨로지와 비효율적인 그래프 탐색 알고리즘의 한계를 극복하기 위해 PAI-2를 제안합니다. 기존의 모델들은 주로 노드 단위의 단순 검색에 의존하여 다중 홉(multi-hop) 추론 능력이 제한적이거나 도메인 적응성이 낮다는 문제를 가지고 있습니다.

#Review #GraphRAG #Search Planning #Graph Traversal #Knowledge Graph #LLM Agents #Multi-hop Reasoning

2026년 5월 13일

[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #EHR #Benchmark #FHIR #Clinical Workflows #Agentic Evaluation #Long-horizon Tasks

2026년 5월 4일

[논문리뷰] From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

본 논문은 LLM 에이전트 시스템이 사용하는 기술(Skill)의 표현 방식이 텍스트 중심의 파편화된 구조에 머물러 있어, 기계적 reasoning과 자동화된 검증에 한계가 있다는 문제의식에서 출발합니다.

#Review #LLM Agents #Skill Representation #Scheduling-Structural-Logical (SSL)#Skill Discovery #Risk Assessment #Knowledge Representation

2026년 5월 3일

[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.

#Review #LLM Agents #Long-Horizon Tasks #Skill Discovery #Co-Evolution #Skill Bank #Reinforcement Learning

2026년 4월 23일

[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.

#Review #LLM Agents #Skill Evolution #Multi-user Ecosystem #Collective Learning #Agentic Evolver #Procedural Memory

2026년 4월 9일

[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

본 논문은 LLM 에이전트의 기억 능력을 평가하는 기존 벤치마크들이 '명시적 기억(Explicit memory)'의 회상 능력에만 편중되어 있다는 점을 지적한다.

#Review #Implicit Memory #LLM Agents #Procedural Memory #Priming #Classical Conditioning #Benchmark #Behavioral Adaptation

2026년 4월 9일

[논문리뷰] Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills

본 논문은 에이전트 스킬 라이브러리가 수천 개 이상으로 확장됨에 따라 발생하는 Skill Retrieval 의 병목 현상과 불완전한 스킬 검색 문제를 해결합니다. 기존의 Vanilla Skills 방식은 전체 라이브러리를 프롬프트에 포함하여 Context Window 오버로드, 토큰 비용 증가, 성능 저하를 초래합니다.

#Review #Agentic AI #Skill Retrieval #Graph-based Retrieval #Structural Dependency #Personalized PageRank #LLM Agents

2026년 4월 9일

[논문리뷰] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering

저자들은 에이전트의 역량을 Memory(상태의 외부화), Skills(절차적 전문성의 외부화), Protocols(상호작용 구조의 외부화)라는 세 가지 차원으로 구분하여 분석한다 . Memory는 Working Context, Episodic 경험, Semantic 지식, 개인화된 기억을 통해 모델이 에피소드 간 연속성을 유지하도록 돕는다.

#Review #LLM Agents #Externalization #Memory #Skills #Protocols #Harness Engineering #Cognitive Artifacts

2026년 4월 9일

[논문리뷰] SEVerA: Verified Synthesis of Self-Evolving Agents

본 연구는 FGGM을 핵심으로 하는 3단계 프레임워크인 SEVerA를 제안합니다. 첫째, Search 단계에서 Planner LLM이 로컬 제약 조건이 설정된 FGGM 기반의 Parametric Program을 합성합니다.

#Review #LLM Agents #Automated Verification #Deductive Program Synthesis #Formally Guarded Generative Models #Constraint-Guided Synthesis

2026년 4월 8일

[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings

본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.

#Review #LLM Agents #Agentic Skills #Skill Retrieval #Skill Refinement #Benchmarking #Test-time Adaptation

2026년 4월 7일

[논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents

본 논문은 LLM 기반 에이전트가 인간의 행동을 시뮬레이션할 때 발생하는 Behavioral Rigidity 와 양극화 문제를 해결하고자 합니다.

#Review #LLM Agents #Value Alignment #Behavioral Fidelity #S-O-R Model #Value-Driven Reasoning #CVABench

2026년 4월 7일

[논문리뷰] SkillX: Automatically Constructing Skill Knowledge Bases for Agents

저자들은 에이전트의 경험을 계층적으로 구조화하여 재사용성을 극대화하는 SkillX 프레임워크를 제안합니다 . SkillX는 고성능 backbone 에이전트인 GLM-4.6을 사용하여 훈련 태스크를 수행하고, 성공한 trajectory로부터 Planning, Functional, Atomic 단계의 skill을 증류(distill)합니다.

#Review #LLM Agents #Skill Knowledge Base #Hierarchical Representation #Autonomous Experience Learning #Agent Self-Evolution #Tool Use

2026년 4월 6일

[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies

본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.

#Review #Test-Time Learning #Language Agents #Meta-Learning #Evolutionary Optimization #Adaptive Policy #LLM Agents #Prompt Engineering

2026년 4월 6일

[논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

저자들은 AgentSocialBench를 도입하여 7개 카테고리, 300개 이상의 시나리오를 통해 에이전트의 프라이버시 보존 성능을 체계적으로 평가합니다 . 제안된 프레임워크는 사용자 프로파일의 민감도 계층, 지향성 사회 그래프, 그리고 명시적 프라이버시 경계를 포함합니다.

#Review #LLM Agents #Agentic Social Networks #Privacy Preservation #Contextual Integrity #Information Abstraction #Abstraction Paradox

2026년 4월 5일

[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents

본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.

#Review #LLM Agents #Software Engineering #Underspecification #Uncertainty-Aware #Multi-Agent #Collaborative AI

2026년 4월 2일

[논문리뷰] Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Large Language Model (LLM) 기반의 Agent는 복잡한 태스크를 해결하기 위해 Domain-specific Skill에 대한 의존도가 높아지고 있습니다.

#Review #LLM Agents #Skill Evolution #Trajectory Analysis #Inductive Reasoning #Transferable Skills #Conflict-Free Consolidation

2026년 3월 29일

[논문리뷰] MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Large Language Models (LLMs) 기반의 Agent들이 장기적인 상호작용을 지원하기 위해 외부 메모리 뱅크를 활용하지만, 대부분의 기존 시스템은 메모리 Construction , Retrieval , Utilization 단계를 개별적인 서브루틴으로 분리하여 처리하는 한계를 가집니다.

#Review #LLM Agents #Memory Cycle #Multi-Agent Reasoning #Self-Evolution #Long-Horizon Memory #Strategic Blindness #Memory Management

2026년 3월 26일

[논문리뷰] FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

최근 Large Language Models (LLMs)는 금융 애플리케이션에서 agent 로서 사용자 요청을 해석하고, 외부 도구를 호출하며, 다단계 추론을 수행해야 하는 역할을 점점 더 많이 맡고 있습니다.

#Review #LLM Agents #Financial Tool Use #Benchmarking #Model Context Protocol #Multi-tool Reasoning #Multi-turn Conversation #Evaluation Metrics

2026년 3월 26일

[논문리뷰] T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

기존 LLM red-teaming 연구는 주로 모델에서 유해한 텍스트 출력(harmful text outputs)을 유도하는 데 초점을 맞추었으나, 이는 Model Context Protocol (MCP)과 같은 통합 표준을 통해 다단계 도구 실행(multi-step tool execution)이 가능한 LLM Agents의 새로운 안전 위험을 간과하고 있습니다.

#Review #LLM Agents #Red-Teaming #Vulnerability Discovery #Trajectory-aware Search #MAP-Elites #Tool Call Graph #Attack Realization Rate

2026년 3월 25일

[논문리뷰] Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments

최근 LLM(Large Language Models)의 발전은 복잡한 태스크에서 추론, 계획 및 실행이 가능한 에이전트 시스템을 가능하게 했지만, 불확실한 환경에서 자원을 효과적으로 할당할 수 있는지에 대한 여부는 불분명하다. resource allocation 은 단기적인 반응적 의사결정과 근본적으로 다르다.

#Review #LLM Agents #Resource Allocation #Enterprise Simulation #Financial Management #Uncertainty #Long-Horizon Decision-Making #CFO

2026년 3월 25일

[논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

LLM 기반 시스템은 단일 프롬프트에 응답하는 단순한 챗봇을 넘어, LLM 호출, 정보 검색, 툴 사용, 코드 실행, 메모리 업데이트 및 검증을 통합하는 실행 가능한 워크플로를 구성하여 태스크를 해결하는 방식으로 발전하고 있습니다.

#Review #LLM Agents #Workflow Optimization #Agentic Computation Graphs (ACGs)#Static Optimization #Dynamic Optimization #Runtime Adaptation #Evaluation Protocol #Feedback Signals

2026년 3월 24일

[논문리뷰] REVERE: Reflective Evolving Research Engineer for Scientific Workflows

기존의 Prompt-Optimization Techniques는 주로 Local Signals에 의존하여 Behavior를 업데이트하며, 이로 인해 Generalization이 저하되고 Full-Prompt Rewrites나 Unstructured Merges 과정에서 Knowledge Loss가 발생합니다.

#Review #LLM Agents #Self-Adaptation #Research-Coding Workflows #Prompt Optimization #Global Training Context #Code-Based Edits #Continual Learning #Semantic Drift

2026년 3월 23일

[논문리뷰] Deep Tabular Research via Continual Experience-Driven Execution

Large language models (LLMs)는 구조화된 데이터에 대한 reasoning에서 상당한 능력을 보여주었지만, hierarchical 및 bidirectional header , merged cell , non-canonical layout 을 포함하는 unstructured table에 대한 complex long-horizon analytical task 에서는 어려움을 겪습니다.

#Review #Deep Tabular Research #LLM Agents #Tabular Reasoning #Continual Learning #Experience-Driven Execution #Multi-hop Reasoning #Unstructured Tables

2026년 3월 22일

[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Large language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.

#Review #LLM Agents #Subgoals #Reinforcement Learning #Web Navigation #Long-Horizon Planning #Reward Shaping #Curriculum Learning

2026년 3월 22일

[논문리뷰] Memento-Skills: Let Agents Design Agents

현대의 Large Language Models (LLMs) 은 few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다.

#Review #LLM Agents #Continual Learning #Skill Learning #Reinforcement Learning #Memory-based Agents #Agent Design #Read-Write Reflective Learning #Offline RL

2026년 3월 19일

[논문리뷰] AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

최근 LLM 기반 에이전트들은 장기적인 상호작용, 개인화된 지원 및 다단계 추론을 지원하기 위해 외부 메모리에 점점 더 의존하고 있습니다. 그러나 기존 메모리 시스템은 세 가지 핵심 문제에 직면합니다.

#Review #LLM Agents #Dialogue Memory #User-Centric #Adaptive Retrieval #Graph Memory #Multi-Agent Systems #Long-Horizon Reasoning

2026년 3월 18일

[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents

본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Credit Assignment #Hindsight Credit Assignment #Policy Optimization #Sparse Rewards #Long-Horizon Tasks #Generative Verification

2026년 3월 11일

[논문리뷰] Agentic Critical Training

본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Imitation Learning #Self-Reflection #Action Quality #Out-of-Distribution Generalization #Critical Reasoning #GRPO

2026년 3월 9일

[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents

약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.

#Review #LLM Agents #Drug Discovery #Governed Autonomy #Multi-Agent System #Workflow Orchestration #Human-in-the-Loop #Computational Biology #Reproducibility

2026년 3월 5일

[논문리뷰] DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

본 논문은 LLM 에이전트가 Python 중심의 학습 데이터로 인해 R 통계 생태계의 풍부한 통계 방법론을 활용하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #LLM Agents #R Statistical Ecosystem #Retrieval-Augmented Generation #Distribution-Aware Retrieval #R Package Knowledge Base #Statistical Analysis #Embedding Models

2026년 3월 5일

[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Software Engineering #Code Maintenance #Continuous Integration #Benchmark #Code Generation #Long-term Evaluation #Technical Debt

2026년 3월 4일

[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.

#Review #LLM Agents #Long-Horizon Tasks #Memory Management #Indexed Experience Memory #Reinforcement Learning #Context Window #Tool Use #MEMEXRL

2026년 3월 4일

[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.

#Review #Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning #Zero-Data Learning #LLM Agents #Curriculum Learning #Reward Shaping #Co-evolution

2026년 3월 2일

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일

[논문리뷰] AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

본 논문은 다중 에이전트 시스템(MAS) 내에서 개별 에이전트의 오류 정보가 하위 에이전트로 연쇄적으로 전파(cascading impact) 되어 전체 태스크 성능을 저하시키는 문제를 해결하고자 합니다.

#Review #Multi-Agent Systems #Information Flow Optimization #Test-Time Rectification #Error Pruning #LLM Agents #Failure-Driven Indicators #Adaptive Reasoning

2026년 2월 26일

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일

[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Tool-use #Scientific Reasoning #Benchmarking #Interactive Environment #Data Synthesis #Error Recovery #Multi-step Tasks

2026년 2월 15일

[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

LLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다.

#Review #LLM Agents #Reinforcement Learning #Skill Discovery #Recursive Evolution #Experience Distillation #Hierarchical Skills #Context Efficiency #Task Planning

2026년 2월 10일

[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training

본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.

#Review #Environment Synthesis #Tool-Use Agents #Reinforcement Learning #Generalization #Procedural Generation #LLM Agents #Interactive Environments #Data Scaling

2026년 2월 10일

[논문리뷰] Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

이 논문은 LLM 에이전트의 기존 오프라인, 쿼리-불가지론적 메모리 구성 방식이 비효율적이며 쿼리-중요 정보를 놓칠 수 있다는 문제를 제기합니다. 핵심 목표는 런타임 메모리 추출을 위해 명시적이고 제어 가능한 성능-비용 트레이드오프 를 가능하게 하는 프레임워크를 개발하는 것입니다.

#Review #LLM Agents #Runtime Memory #Budget-Tier Routing #Reinforcement Learning #Performance-Cost Trade-off #Modular Memory Pipeline #Query-Aware Memory #Resource Management

2026년 2월 9일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

현재 LLM 에이전트 평가가 주로 연역적(deductive) 패러다임 에 집중되어 있어, 에이전트가 환경의 숨겨진 규칙을 자율적으로 발견하는 귀납적(inductive) 능력 을 측정하는 데 한계가 있음을 지적합니다.

#Review #LLM Agents #Benchmarking #Inductive Reasoning #Long-Horizon Tasks #Active Exploration #World Models #Autonomous Discovery

2026년 2월 8일

[논문리뷰] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening

본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 보안 취약점을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Agent Security #Intrinsic Risk Sensing #Adaptive Defense #Hierarchical Screening #Attack Detection #S2Bench Benchmark

2026년 2월 5일

[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty

기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.

#Review #LLM Agents #Benchmarks #Tool-use #Consistency #Uncertainty Handling #Hallucination #In-car Assistant #Policy Adherence

2026년 2월 5일

[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.

#Review #LLM Agents #Test-Time Improvement #Diagnostic Evaluation #Trajectory Analysis #Performance Metrics #Behavior Adaptation #Memory Management #POMDP

2026년 2월 4일

[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning

이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Context Management #Thought Omission #Observation Omission #Reinforcement Learning #Adaptive Policy

2026년 2월 4일

[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling

본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.

#Review #Wide Research #Multi-Agent Systems #Reinforcement Learning #Information Seeking #Benchmarking #LLM Agents #Knowledge Graphs

2026년 2월 3일

[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions

본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.

#Review #Software Engineering Environments #LLM Agents #Data Generation #Verifiable Tasks #Multilingual #Reinforcement Learning #Self-Verification #Hacking Detection

2026년 2월 2일

[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents

본 논문은 대규모 언어 모델(LLM) 에이전트가 긴 호라이즌의 심층 연구 작업을 수행할 때 발생하는 컨텍스트 창 제한 문제를 해결하고자 합니다. 이는 토큰 예산을 압축하고 효과적인 테스트 시간 스케일링을 방해하여 보고서의 불완전한 커버리지와 낮은 품질을 초래합니다.

#Review #LLM Agents #Deep Research #Long-Horizon Tasks #Test-Time Scaling #File System #Persistent Workspace #Knowledge Base #Dual-Agent Framework

2026년 2월 2일

[논문리뷰] Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Idea2Story는 기존 LLM 기반 자율 과학 연구 에이전트의 비효율성, 컨텍스트 윈도우 한계, 취약한 추론 및 환각 문제를 해결하는 것을 목표로 합니다. 문헌 이해를 온라인 실시간 추론에서 오프라인 지식 구성으로 전환하여, 확장 가능하고 신뢰할 수 있는 자율 과학 발견을 위한 실용적인 기반을 마련하고자 합니다.

#Review #Autonomous Scientific Discovery #LLM Agents #Knowledge Graph #Pre-computation #Research Pattern #Methodology #Retrieval-Augmented Generation #Review-Guided Refinement

2026년 1월 29일

[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.

#Review #Agentic AI #Reinforcement Learning #Long-Horizon Tasks #Dynamic Branching #Strategic Exploration #LLM Agents #Sample Efficiency #Policy Optimization

2026년 1월 28일

[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Cross-Domain Generalization #State Information Richness #Planning Complexity #State Augmentation #Step-by-Step Reasoning #Mid-Training

2026년 1월 26일

[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Long-Horizon Planning #Benchmarking #Verifiable Constraints #Tool Use #Constraint Optimization #Information Acquisition #Travel Planning #Shopping Planning

2026년 1월 26일

[논문리뷰] DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal

본 논문은 학술적 동료 심사 과정에서 중요한 단계인 학술 리버탈(rebuttal)에 대한 자동화된 지원이 부족하고, 기존 LLM 기반 접근 방식이 긴 컨텍스트 이해와 설득력 있는 응답 생성에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Academic Rebuttal #LLM Agents #Peer Review Automation #Generative AI #Retrieval-Augmented Generation (RAG)#Strategic Planning #Persuasion

2026년 1월 26일

[논문리뷰] Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance

AI/ML 논문 심사 과정에서 발생하는 저자 답변(rebuttal) 작성의 어려움을 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Framework #LLM Agents #Peer Review #Rebuttal Generation #Evidence-centric Planning #Transparency #Human-in-the-loop

2026년 1월 21일

[논문리뷰] Agentic Reasoning for Large Language Models

본 설문조사 논문은 대규모 언어 모델(LLM)의 추론 능력이 정적인 폐쇄형 환경에서 벗어나 동적이고 개방형 환경에서 계획, 행동, 학습을 통해 지속적으로 상호작용하는 자율 에이전트 로 발전하는 Agentic Reasoning 패러다임을 체계화하는 것을 목표로 합니다.

#Review #Agentic Reasoning #LLM Agents #Self-Evolving AI #Multi-Agent Systems #Planning #Tool Use #Retrieval-Augmented Generation #Reinforcement Learning

2026년 1월 21일

[논문리뷰] AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization

본 논문은 LLM의 자율적인 EHR(전자건강기록) 탐색 및 임상 의사 결정 능력이 현재까지 이상화된 실험 설정에 의해 제한되어 있음을 지적합니다. 특히, 기존 요약 방식의 정보 손실과 추론 단절 문제를 해결하여 복잡한 임상 진단 및 치료 계획 태스크 에서 장문 맥락 상호작용 추론 을 가능하게 하는 것을 목표로 합니다.

#Review #Clinical Decision-Making #LLM Agents #EHR #Retrospective Summarization #Long-Context Reasoning #Experience Replay #Healthcare AI

2026년 1월 21일

[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Memory Management #Tool Learning #AI Planning #Resource Optimization #Cost-Performance Trade-off

2026년 1월 20일

[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development

기존 코드 생성 벤치마크들이 정적인 코드 로직 평가에 집중하여 실제 백엔드 개발의 동적이고 전체 프로세스 요구사항(환경 구성, 서비스 배포 등)을 간과하는 문제를 해결하고자 합니다.

#Review #Backend Development #LLM Agents #Code Generation #Benchmarking #DevOps #Containerization #End-to-End Testing #Environment Configuration

2026년 1월 19일

[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 물리적으로 제한된 실제 환경, 특히 다양한 목표와 엄격한 제약을 가진 우주 계획 문제(SPP) 에서 얼마나 효과적으로 계획하고 행동할 수 있는지 평가하는 것을 목표로 합니다.

#Review #LLM Agents #Space Planning #Benchmark #Agentic Planning #Physics Constraints #Decision Making #Zero-Shot Learning

2026년 1월 18일

[논문리뷰] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering

본 논문은 에이전트 기반 과학에서 초장기 자율성(ultra-long-horizon autonomy) 의 핵심 병목 현상을 해결하고자 합니다.

#Review #Agentic AI #Long-Horizon Autonomy #Cognitive Accumulation #Hierarchical Cognitive Caching (HCC)#Context Management #Machine Learning Engineering (MLE)#LLM Agents

2026년 1월 15일

[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback

본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Tool Use Safety #Guardrail #Step-level Safety Detection #Prompt Injection #Reinforcement Learning #Feedback Framework

2026년 1월 15일

[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models

대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.

#Review #LLM Agents #World Models #Adaptive Planning #Lookahead #Reinforcement Learning #POMDP #Task Planning #Reasoning

2026년 1월 14일

[논문리뷰] EvoFSM: Controllable Self-Evolution for Deep Research with Finite State Machines

LLM 기반 에이전트가 심층 연구 과정에서 겪는 고정된 워크플로우 의 한계와 무제한적인 자기 진화 로 인한 불안정성(instruction drift, hallucination) 문제를 해결하는 것입니다.

#Review #LLM Agents #Self-Evolution #Finite State Machines #Deep Research #Multi-hop QA #Adaptive Workflow #Memory Mechanism #Controllable AI

2026년 1월 14일

[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.

#Review #LLM Agents #Calibration #Tool Use #Reinforcement Learning #Miscalibration #Overconfidence #Trustworthy AI

2026년 1월 13일

[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning

본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.

#Review #Executive Memory #LLM Agents #Reasoning #Context Management #Tool-Augmented Agents #Memory Management #Trajectory Folding #Preference Optimization

2026년 1월 13일

[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Open-Ended Tasks #Relative Ranking #Tournament-based Ranking #Discriminative Collapse #Reward Modeling #Benchmarks

2026년 1월 13일

[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning

본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.

#Review #Travel Planning #LLM Agents #Reinforcement Learning #Multi-path Reasoning #Constraint Satisfaction #POI Optimization #Chain-of-Thought

2026년 1월 12일

[논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning

기존 대규모 언어 모델(LLM) 에이전트용 강화 학습(RL) 시스템의 한계를 극복하고, 에이전트 환경 및 상호작용 프로토콜의 재사용성 부족, 그리고 에이전트 프로그래밍과 실행 간의 분리 부재 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Agents #Multi-Agent Systems #System Architecture #Separation of Concerns #RLaaS #Distributed Training #Agent Protocol Coordination

2026년 1월 12일

[논문리뷰] Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning

현재 LLM 에이전트 메모리 시스템이 주로 사용하는 평면적인 정보 저장 방식과 단순 유사성 기반 검색의 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #Agent Memory #Event Graph #Long-term Reasoning #Knowledge Graph #Active Retrieval #Event Segmentation #Multi-hop QA

2026년 1월 11일

[논문리뷰] AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering

본 논문은 LLM 에이전트의 자기 개선 방식이 종종 불안정하고 감사하기 어렵다는 문제점을 지적합니다.

#Review #LLM Agents #Release Engineering #Self-Improvement #Regression Testing #Continuous Integration #Flip-Centered Gating #Auditable Development #Software Engineering

2026년 1월 8일

[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search

본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.

#Review #Agentic RL #Multi-turn Tasks #Policy Optimization #Tree Search #Credit Assignment #Exploration Diversity #LLM Agents

2026년 1월 8일

[논문리뷰] Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

본 논문은 최신 추론형 LLM(Large Language Models)이 최소한의 코드 스캐폴딩과 기본적인 도구를 사용하여 연구 아이디어 구상부터 최종 연구 논문 작성까지 높은 자율성 을 가지고 수행할 수 있는지 탐구하는 것을 목표로 합니다.

#Review #Machine Learning Research #Autonomous Research #LLM Agents #Scientific Workflow #Failure Modes #Experimental Design #AI Scientist #Agentic Systems

2026년 1월 7일

[논문리뷰] Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents

본 논문은 대규모 언어 모델(LLM) 에이전트의 Chain-of-Thought(CoT) 추론 과정 이 실제 모델 출력의 원인인지 혹은 사후 합리화인지에 대한 'Faithfulness Gap' 문제를 해결하고자 합니다.

#Review #LLM Agents #Faithfulness #XAI #Causal Inference #Structural Causal Models #Counterfactual Interventions #Reasoning Trace Auditing #Causal Decoupling

2026년 1월 5일

[논문리뷰] Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

본 논문은 기존 LLM 에이전트 프레임워크가 겪는 높은 구성 비용 과 정적 기능 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Automated Agent Generation #Reinforcement Learning #Hybrid Policy Optimization #Tool Synthesis #In-context Learning #Agent Framework #Scalability

2026년 1월 4일

[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking

정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.

#Review #Agentic Information Seeking #LLM Agents #Browser Automation #Nested Framework #Tool Learning #Context Efficiency #Deep Web

2025년 12월 29일

[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.

#Review #Reinforcement Learning (RL)#LLM Agents #Skill Library #Self-Improvement #Sequential Rollout #AppWorld dataset #GRPO

2025년 12월 23일

[논문리뷰] MemEvolve: Meta-Evolution of Agent Memory Systems

본 논문은 LLM 기반 에이전트의 고정된 메모리 시스템 아키텍처가 다양한 태스크 컨텍스트에 메타 적응할 수 없는 근본적인 한계 를 해결하고자 합니다.

#Review #LLM Agents #Memory Systems #Meta-Evolution #Self-Evolving AI #Memory Architecture #EvolveLab #Generalization

2025년 12월 23일

[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators

본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.

#Review #LLM Agents #Environment Simulation #Co-evolution #Curriculum Learning #Data Efficiency #Reinforcement Learning #Adaptive Simulation #Difficulty Alignment

2025년 12월 22일

[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.

#Review #Multi-Turn Reinforcement Learning #LLM Agents #Proximal Policy Optimization (PPO)#Turn-Level MDP #Advantage Estimation #Generative AI #Deep Reinforcement Learning

2025년 12월 21일

[논문리뷰] Meta-RL Induces Exploration in Language Agents

본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Meta-RL #LLM Agents #Exploration #Reinforcement Learning #Policy Adaptation #In-context Learning #Self-reflection #Multi-episode tasks

2025년 12월 21일

[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Prompt Optimization #Context Management #Online Learning #Agent Effectiveness #Self-Evolving Prompts #Trace-Based Learning #Dual-Stream Routing

2025년 12월 17일

[논문리뷰] Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

본 논문은 복잡한 인터랙티브 태스크에서 LLM 에이전트가 직면하는 프라이버시 제약으로 인해 중앙 집중식 최적화 및 동적 환경 간 공동 진화가 어려운 문제를 해결하고자 합니다.

#Review #Federated Learning (FL)#LLM Agents #Self-Evolution #Privacy-Preserving #Multi-Environment #Parameter-Efficient Fine-Tuning #Low-Rank Aggregation #Reinforcement Learning

2025년 12월 11일

[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.

#Review #LLM Agents #Geometry Problem Solving #Reinforcement Learning #Curriculum Learning #Auxiliary Construction #Symbolic Reasoning #IMO

2025년 12월 11일

[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication

임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.

#Review #Clinical Dialogue #LLM Agents #Healthcare AI #Agentic Paradigm #Medical Decision Support #Knowledge Grounding #AI Safety #Workflow Automation

2025년 12월 10일

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.

#Review #E-commerce #Foundation Agents #LLM Agents #Benchmark #Agent Evaluation #Tool Use #Multi-step Reasoning #Real-world Scenarios

2025년 12월 9일

[논문리뷰] PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

기존 LLM 기반 글쓰기 보조 도구가 편집기 외부에 존재하여 발생하는 컨텍스트 전환, 상호작용 기록 단절, 문서 상태와의 심층적 상호작용 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Academic Writing #In-editor Assistant #Multi-agent System #Overleaf Integration #Chrome Extension #Kubernetes #XtraMCP

2025년 12월 4일

[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research

이 논문의 핵심 목표는 기존 개방형 심층 연구 모델들이 짧은 형식의 질문 답변(QA)에 초점을 맞춰 실제 장문형 심층 연구 작업에 적용하기 어렵다는 한계를 극복하는 것입니다.

#Review #Reinforcement Learning #Evolving Rubrics #Deep Research #LLM Agents #Tool Use #Long-form QA #Open-source AI #Dynamic Evaluation

2025년 11월 24일

[논문리뷰] Budget-Aware Tool-Use Enables Effective Agent Scaling

이 논문은 대규모 언어 모델(LLM) 기반 에이전트의 효과적인 테스트 시간 스케일링(test-time scaling) 에 대한 연구를 목표로 합니다. 특히, 도구 사용 에이전트가 명시적인 예산 제약 조건 하에서 외부 환경과의 상호작용(도구 호출)을 어떻게 효율적으로 활용하여 성능을 최적화할 수 있는지를 탐구합니다.

#Review #LLM Agents #Tool Use #Budget Awareness #Test-time Scaling #Cost-Performance #Web Search Agents #Planning #Self-Verification

2025년 11월 24일

[논문리뷰] O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents

기존 LLM 기반 에이전트가 장기적인 상호작용, 맥락적 일관성, 동적 개인화에 직면하는 한계를 극복하는 것이 목표입니다.

#Review #Memory System #LLM Agents #Personalization #User Profiling #Hierarchical Retrieval #Long-Term Interaction #Self-Evolving Agents #Contextual Consistency

2025년 11월 23일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.

#Review #LLM Agents #Software Engineering #Long-Context #Interactive Benchmark #Tool Usage #Memory Management #Bias-Free Evaluation #Multi-Turn

2025년 11월 17일

[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?

이 논문은 기존 LLM 기반 소프트웨어 에이전트가 고정된 설계와 값비싼 오프라인 훈련으로 인해 성능이 최적화되지 못하고 특정 벤치마크에 국한되는 한계를 해결하고자 합니다.

#Review #Software Engineering Agents #LLM Agents #Self-Evolution #On-the-Fly Learning #Tool Creation #SWE-bench #Autonomous Systems #Code Generation

2025년 11월 17일

[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction

이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Agents #Markov Decision Process #Workspace Reconstruction #Reinforcement Learning #Context Management #Iterative Deep Research #LLM Agents #Efficiency-Aware Policy Optimization

2025년 11월 10일

[논문리뷰] FLEX: Continuous Agent Evolution via Forward Learning from Experience

본 논문의 핵심 목표는 기존 LLM(Large Language Model) 에이전트의 고정된 특성, 경험 기반 학습의 부재, 파라미터 최적화의 높은 비용 및 카타스트로픽 망각 문제점을 해결하는 것입니다.

#Review #LLM Agents #Continuous Learning #Experience Library #Forward Learning #Meta-MDP #Knowledge Distillation #Non-parametric Adaptation

2025년 11월 10일

[논문리뷰] Real-Time Reasoning Agents in Evolving Environments

본 논문은 실시간으로 변화하는 환경에서 대규모 언어 모델(LLM) 기반 에이전트가 논리적이고 시의적절한 판단을 내리는 실시간 추론(Real-Time Reasoning) 이라는 근본적인 과제를 해결하는 것을 목표로 합니다.

#Review #Real-time Reasoning #LLM Agents #Dynamic Environments #Dual-System AI #AgileThinker #Reactive Planning #Cognitive Load #Time Pressure

2025년 11월 9일

[논문리뷰] Scaling Agent Learning via Experience Synthesis

대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.

#Review #Reinforcement Learning #LLM Agents #Experience Synthesis #World Models #Curriculum Learning #Sim-to-Real Transfer #Web Agents

2025년 11월 9일

[논문리뷰] CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents

기존 LLM 에이전트 평가가 태스크 완료에만 집중하고 자원 효율성 및 동적 환경에서의 적응성을 간과하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Tool Use #Cost-Optimal Planning #Dynamic Environments #Benchmarking #Multi-Turn Interaction #Economic Reasoning

2025년 11월 9일

[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

기존 LLM 에이전트 벤치마크가 짧은 호라이즌과 완전 관측 가능한 태스크에 집중하여 실제 복합 태스크에 필수적인 지속적인 추론, 계획, 메모리 관리, 툴 사용 능력 을 충분히 평가하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Long-Horizon Reasoning #Benchmarking #Partially Observable #Tool Use #Memory Management #Exploration

2025년 9월 29일

[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.

#Review #Reinforcement Learning #LLM Agents #Exploration-Exploitation #Self-Imitation Learning #Intrinsic Rewards #Curriculum Learning #Policy Entropy #Tool Use

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] Tree Search for LLM Agent Reinforcement Learning

본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Tree Search #Policy Optimization #Preference Learning #Sparse Rewards #Multi-turn Tasks

2025년 9월 26일

[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations

논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.

#Review #Agent Environments #Agent Evaluation #LLM Agents #Asynchronous Systems #Reinforcement Learning #Tool Use #Multi-agent Collaboration #Benchmark

2025년 9월 23일

[논문리뷰] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

본 논문은 AI 에이전트가 방대한 웹 스케일 정보를 통찰력 있는 보고서로 통합해야 하는 복잡한 문제인 개방형 심층 연구(Open-Ended Deep Research, OEDR) 의 한계를 해결하는 것을 목표로 합니다.

#Review #Open-Ended Deep Research #LLM Agents #Dynamic Outline #Evidence Acquisition #Hierarchical Writing #Memory Bank #State-of-the-Art #Supervised Fine-Tuning

2025년 9월 17일

[논문리뷰] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

이 논문은 대규모 언어 모델(LLM) 기반 에이전트가 장기 웹 탐색 작업을 수행할 때 컨텍스트 윈도우의 제한으로 인해 충분한 탐색이 불가능한 문제를 해결하고자 합니다.

#Review #LLM Agents #Context Management #Summarization #ReAct #Reinforcement Learning #Web Search #Long-Horizon Reasoning

2025년 9월 17일

[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents

본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Policy Gradients #Entropy Modulation #Credit Assignment #Uncertainty #Long-Horizon Tasks #Self-Calibrating Gradient Scaling

2025년 9월 12일

[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interaction #Long-Horizon Decision Making #Agent Framework #Exploration-Exploitation #Progressive Scaling

2025년 9월 11일

[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.

#Review #Agentic Reinforcement Learning #Large Language Models #LLM Agents #Sequential Decision Making #Policy Optimization #Tool Use #Dynamic Environments #Autonomous AI

2025년 9월 3일

[논문리뷰] How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench

본 논문은 복잡하고 동적인 다중 턴 환경(예: τ-bench )에서 대규모 언어 모델(LLM) 에이전트 가 도구를 사용하는 과정에서 발생하는 일관성 없는 추론, 도메인 정책 미준수, 장기적인 정보 추출 실패와 같은 문제들을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Tool Use #Function Calling #Input Reformulation #Dynamic Environments #τ-bench #Context Engineering #Multi-Agent Framework

2025년 9월 2일

[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers

이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.

#Review #LLM Agents #Tool Use #Benchmarking #Model Context Protocol (MCP)#Cross-Domain Orchestration #Fuzzy Instructions #Multi-Step Tasks #Real-World Scenarios

2025년 8월 29일

[논문리뷰] Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

본 논문은 대규모 언어 모델(LLM) 에이전트를 활용하여 사이버 보안 취약점을 자동으로 탐지하고 악용하는 것을 목표로 합니다.

#Review #LLM Agents #Cybersecurity #CTF Challenges #Vulnerability Detection #Execution Environments #Docker #Automated Training #Verifiable Feedback

2025년 8월 27일

[논문리뷰] AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 애플리케이션 구축 시 발생하는 유연하고 효율적인 도구 기반 에이전트-환경 상호작용의 어려움을 해결하고자 합니다. 이를 위해 AgentScope 1.0 이라는 개발자 중심 프레임워크를 제시하여, 복잡한 에이전트 애플리케이션 개발을 위한 포괄적인 지원을 목표로 합니다.

#Review #LLM Agents #Agentic Applications #ReAct Paradigm #Framework #Tool Use #Multi-Agent Systems #Developer Experience #Evaluation

2025년 8월 25일

[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction

본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.

#Review #LLM Agents #Future Prediction #Live Benchmark #Dynamic Evaluation #Data Contamination #Tool Use #Web Search #Financial Forecasting #Misinformation

2025년 8월 21일

[논문리뷰] ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

본 논문은 기존 HAR(Human Activity Recognition) 시스템의 낮은 일반화 능력 , 제한적인 제로샷 기능 , 해석 불가능성 이라는 세 가지 주요 한계를 해결하고자 합니다.

#Review #Zero-shot HAR #LLM Agents #Time-Series Analysis #Knowledge Base #Retrieval-Augmented Generation #Multi-sensor Fusion #Interpretability

2025년 8월 20일

[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Agentic Search #Asynchronous RL #Long-Horizon Planning #Tool Use #Data Synthesis

2025년 8월 13일

[논문리뷰] Memp: Exploring Agent Procedural Memory

논문은 대규모 언어 모델(LLM) 기반 에이전트가 겪는 취약한 절차적 메모리 문제를 해결하고, 에이전트에게 학습 가능하고 업데이트 가능한 평생 절차적 메모리 를 부여하는 것을 목표로 합니다. 이를 통해 에이전트의 성공률을 높이고 유사 작업에 대한 실행 효율성 을 개선하고자 합니다.

#Review #Procedural Memory #LLM Agents #Memory Management #Task Automation #Lifelong Learning #Experience Replay #Agent Learning

2025년 8월 11일

[논문리뷰] Efficient Agents: Building Effective Agents While Reducing Cost

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 확장성과 접근성을 위협하는 급증하는 비용 문제 를 해결하고자 합니다.

#Review #LLM Agents #Cost Efficiency #Performance-Cost Trade-off #Agent Frameworks #GAIA Benchmark #Optimization #Resource Management

2025년 8월 7일

[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks

본 논문은 기존 연구가 주로 단일 단계 태스크에 집중했던 것과 달리, 다단계 복합 태스크 에서 테스트 시점 컴퓨팅 최적 스케일링 이라는 새로운 문제를 해결하고자 합니다. 이는 총 컴퓨팅 예산 내에서 각 서브태스크에 적합한 LLM 모델을 선택하고 예산을 할당하여 전반적인 성능을 최대화 하는 것을 목표로 합니다.

#Review #Large Language Models #LLM Agents #Test-time Scaling #Compute Optimization #Multi-stage Tasks #Resource Allocation #Search Efficiency

2025년 8월 5일

[논문리뷰] SWE-Exp: Experience-Driven Software Issue Resolution

본 논문은 기존 LLM 기반 소프트웨어 문제 해결 에이전트가 과거 경험을 활용하지 못하고 각 문제를 독립적으로 처리하여 발생하는 비효율성(중복 탐색, 지식 이전 부족, 전략적 진화 부재)을 해결하는 것을 목표로 합니다.

#Review #Software Issue Resolution #LLM Agents #Experience-Driven Learning #Automated Program Repair #Multi-Agent Systems #Knowledge Management #Continuous Learning

2025년 8월 4일

[논문리뷰] MASPRM: Multi-Agent System Process Reward Model

Multi-Agent Systems (MAS)의 추론 시 검색 과정에서 발생하는 비신뢰성 문제를 해결하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #Process Reward Model #MCTS #Inference-time Search #LLM Agents #Zero-shot Transfer #Reinforcement Learning #Compute-Aware Reasoning

2025년 10월 30일

[논문리뷰] ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking

본 논문은 심층 정보 탐색(Deep Information Seeking, IS) 에이전트의 기존 병렬 사고 방식이 지닌 비효율성(반복적인 롤아웃)과 장기 추론 궤적 통합의 어려움(제한된 컨텍스트)을 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Parallel Thinking #Information Seeking #LLM Agents #Context Window Optimization #Exploration Efficiency #Reasoning Aggregation #Tool Use

2025년 10월 29일

[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.

#Review #LLM Agents #Data Synthesis #Zone of Proximal Development (ZPD)#Complex Reasoning #Tool Use #Automated Benchmarking #Agentic AI #Rejection Sampling Fine-Tuning

2025년 10월 29일

[논문리뷰] ReCode: Unify Plan and Action for Universal Granularity Control

현재 LLM 기반 에이전트의 주요 한계점인 고정된 결정 세분성(granularity) 문제를 해결하고, 인간처럼 유연하게 다양한 세분성 수준에서 의사결정을 내릴 수 있는 능력을 부여하는 것입니다.

#Review #LLM Agents #Decision Granularity Control #Recursive Code Generation #Hierarchical Planning #Action Unification #Program Synthesis #Data Efficiency

2025년 10월 28일

[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision

본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.

#Review #LLM Agents #Self-play #Reinforcement Learning #Search Agents #Supervision-Free Training #Retrieval-Augmented Generation (RAG)#Task Generation #Curriculum Learning

2025년 10월 24일

[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading

본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.

#Review #Automated Trading #Reinforcement Learning #LLM Agents #Tool Orchestration #Financial Markets #Algorithmic Trading #Interpretable AI #ReAct

2025년 10월 22일

[논문리뷰] Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics

본 논문은 기업이 비정형 데이터를 실용적인 통찰력으로 전환하는 과정에서 직면하는 어려움, 특히 기존 자율 에이전트의 도메인 특이성, 의도 정렬, 엔터프라이즈 통합 한계를 해결하고자 합니다.

#Review #Multi-Agent Systems #Deep Research #Enterprise AI #Human-in-the-Loop #Steerable AI #LLM Agents #Context Engineering #Enterprise Analytics

2025년 10월 21일

[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interactions #Reward Sparsity #Information Gain #Policy Optimization #Ground-Truth Awareness #Sample Efficiency

2025년 10월 17일

[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search

본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Multi-Agent Systems #Failure Tracing #Root Cause Analysis #Information Dependency Graph #Reinforcement Learning #Deep Search

2025년 10월 16일

[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.

#Review #Peer Review #AI-Assisted Review #Large Language Models #LLM Agents #Meta-Review #Conference Submissions #Reviewer Personas #Evaluation Metrics

2025년 10월 13일

[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.

#Review #Long-Horizon Tasks #LLM Agents #Global Planning #Reinforcement Learning #Supervised Fine-tuning #Homologous Consensus Filtering #Executor Capability Gain Reward #Plan-and-Execute

2025년 10월 13일

[논문리뷰] Training-Free Group Relative Policy Optimization

본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구 통합 및 특정 프롬프트 전략에서 겪는 성능 저하 문제를 해결하는 것을 목표로 합니다. 특히, 기존 강화 학습(RL) 기반의 파라미터 업데이트 방식이 수반하는 높은 계산 비용, 데이터 희소성, 과적합 문제를 파라미터 업데이트 없이 극복하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Parameter-Free Optimization #Experiential Knowledge #Token Prior #Group Relative Policy Optimization #In-Context Learning #Cost-Effective AI

2025년 10월 10일

[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.

#Review #LLM Agents #Scientific Law Discovery #Benchmarking #Metaphysical Shifts #Interactive Environments #Exploration-Exploitation #Tool Use

2025년 10월 10일

[논문리뷰] Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

본 논문은 실세계의 복잡한 장기(long-horizon) 작업 을 수행하는 AI 에이전트가 경험으로부터 학습하고 지속적으로 개선되지 못하는, 즉 '테스트-시간 정적(test-time static)' 이라는 한계를 해결하고자 합니다.

#Review #LLM Agents #Continuous Learning #Self-Evolving #Memory Module #Long-Horizon Planning #Productivity Tasks #Test-Time Learning #Experience Replay

2025년 10월 10일

[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multi-Agent Systems #LLM Agents #Self-Evolution #Reinforcement Learning #Interaction Rewards #LLM-as-a-Judge #Decentralized Learning

2025년 10월 10일

[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #MLE (Machine Learning Engineering)#Automated Task Generation #Multi-Agent System #LLM Agents #Benchmark #Data Curation #Hybrid Verification #Kaggle

2025년 10월 9일

[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation

본 논문은 자율 AI 에이전트, 특히 LLM 기반 에이전트의 배포로 인해 발생하는 안전, 보안, 프라이버시 위험을 해결하고자 합니다.

#Review #LLM Agents #Safety #Formal Verification #Code Generation #Runtime Monitoring #Security #Guardrails #Policy Enforcement

2025년 10월 8일

[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions

대규모 언어 모델(LLM)이 단일 턴 Text-to-SQL 작업에서는 뛰어난 성능을 보이지만, 실제 데이터베이스 애플리케이션에 필요한 다중 턴 상호작용 능력 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Text-to-SQL #LLM Evaluation #Multi-turn Interaction #Dynamic Environment #User Simulator #Ambiguity Resolution #LLM Agents

2025년 10월 8일

[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails

본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.

#Review #LLM Agents #Alignment #Self-Evolution #Behavioral Drift #Reinforcement Learning #Multi-Agent Systems #Alignment Tipping Process

2025년 10월 7일

[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.

#Review #LLM #LLM Agents #Academic Survey Generation #Evaluation Framework #Benchmark #Quiz-driven Evaluation #Content Quality Metrics

2025년 10월 6일

[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #LLM Agents #Text-based Environments #Reward Shaping #Policy Optimization #Supervised Fine-tuning (SFT)#Generalization #Environment Complexity

2025년 10월 6일

[논문리뷰] Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution

본 논문은 기존 LLM 에이전트 프레임워크의 고질적인 문제인 비효율적인 순차적 처리 방식 을 해결하여, 복잡한 웹 기반 추론 작업에서 발생하는 과도한 실행 단계와 긴 지연 시간을 단축하는 것을 목표로 합니다. 특히 광범위한 도구 상호작용이 필요한 태스크에서 에이전트의 효율성과 확장성을 근본적으로 개선하고자 합니다.

#Review #LLM Agents #Parallel Execution #DAG-based Planning #Tool Orchestration #Web Agents #Reasoning Framework #Efficiency

2025년 10월 2일

[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents

본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.

#Review #LLM Agents #Context Compression #Long-horizon Tasks #Prompt Optimization #Knowledge Distillation #Memory Efficiency #Task Performance #Failure Analysis

2025년 10월 2일

[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

기존 LLM 에이전트 벤치마크들이 실제 환경의 복잡성(방대한 정보 처리, 다양한 리소스 활용, 동적인 사용자 상호작용)을 제대로 포착하지 못하는 문제를 해결합니다. 본 논문은 VitaBench 를 통해 현실 세계의 다양한 시뮬레이션 환경에서 에이전트의 능력을 평가하고, 이러한 격차를 해소하는 것을 목표로 합니다.

#Review #LLM Agents #Benchmarking #Interactive Tasks #Real-world Applications #Tool Use #Multi-turn Conversation #Task Complexity

2025년 10월 1일

[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning

대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #External Memory #Reinforcement Learning #Memory Management #Long-Context Understanding #Tool Learning #RAG #Memory Architecture

2025년 10월 1일

[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

본 논문은 기존의 MCP(Model Context Protocol) 벤치마크가 현실적인 워크플로우의 복잡성을 제대로 포착하지 못하고 읽기 위주 또는 제한적인 상호작용 깊이에 머물러 있다는 문제점을 해결하고자 합니다.

#Review #LLM Agents #Model Context Protocol #Benchmark #Tool Use #CRUD Operations #Workflow Automation #Stress Testing #Evaluation

2025년 10월 1일

[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents

본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Information Seeking #Reinforcement Learning #Data Synthesis #Web Search Tools #Tool Use #Deep Research Agents

2025년 10월 1일

[논문리뷰] BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

본 논문은 오픈소스 소프트웨어(OSS) 프로젝트의 자동 컴파일이라는 복잡하고 노동 집약적인 문제를 해결하기 위해 LLM 에이전트 의 성능을 평가하고 개선하는 것을 목표로 합니다.

#Review #LLM Agents #Open-Source Software #Compilation #Benchmarking #Software Engineering #Error Resolution #Retrieval-Augmented Generation

2025년 10월 1일