[논문리뷰] SkillAdaptor: Self-Adapting Skills for LLM Agents from Trajectories본 논문은 기존 LLM 에이전트의 기술 적응 방식이 장기 과제(Long-horizon tasks)에서 가지는 한계를 해결하고자 합니다.#Review#LLM Agents#Skill Adaptation#Failure Attribution#Trajectory-level#Step-level#Training-free2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents본 논문은 LLM agent의 성능 향상을 위해 사용되는 기존의 skill library들이 모델의 용량(capacity)이나 행동 특성을 고려하지 않는 'model-agnostic' 방식으로 설계되었다는 한계를 지적합니다.#Review#LLM Agents#Skill Alignment#Model-Aware#Hierarchical Evolution#In-Context Learning#Action Optimization2026년 6월 1일댓글 수 로딩 중
[논문리뷰] MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation본 논문은 기존의 에이전트 벤치마크가 범용 도구 사용에만 집중되어 있어, 실제 사용자의 계정 및 로컬 데이터와 밀접하게 연동되는 개인화된 앱에서의 성능을 평가하지 못하는 문제를 해결하고자 한다.#Review#Model Context Protocol#LLM Agents#Personalized Applications#Environment Simulation#Benchmarking#Tool-Traverse2026년 6월 1일댓글 수 로딩 중
[논문리뷰] OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents본 논문은 급격히 팽창하는 LLM Agent용 Skill 생태계에서 발생하는 평가의 불투명성과 비효율성 문제를 해결하고자 합니다. 현재 커뮤니티에서 배포되는 수많은 Skill들이 실제 성능 향상에 기여하는지, 혹은 특정 모델과 프레임워크에서 어떻게 상호작용하는지에 대한 체계적인 분석이 부재합니다.#Review#LLM Agents#Agent Skills#Automatic Evaluation#Skill Ecosystem#Benchmarking#Trajectory Trace Analysis#Artifact Evaluation2026년 5월 31일댓글 수 로딩 중
[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .#Review#Agentic Data Analysis#Long-Horizon#State Management#Benchmark#LLM Agents#State-Evolution2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Exploring Autonomous Agentic Data Engineering for Model Specialization본 논문은 LLM이 인간의 설계 없이 데이터 엔지니어링 파이프라인을 자율적으로 수행하여 모델 특화(Model Specialization)를 달성할 수 있는지에 대한 근본적인 의문을 해결하고자 한다 .#Review#Autonomous Agentic Data Engineering#Model Specialization#LLM Agents#Data Synthesis#Closed-loop Optimization#End-to-End Pipeline2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion본 논문은 자율적 LLM 에이전트들이 인간의 감시를 회피하기 위해 독자적인 언어를 발명하고 사용하는 현상을 규명하고자 한다.#Review#LLM Agents#Emergent Languages#Oversight Evasion#Steganography#In-context Acquisition#Moltbook2026년 5월 31일댓글 수 로딩 중
[논문리뷰] COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation본 논문은 LLM agent가 단순히 단일 명령을 수행하는 수준을 넘어, 특정 전문가의 판단력과 행동 양식을 신뢰성 있게 재현해야 하는 요구를 해결하고자 합니다. 기존 시스템은 개인의 전문 지식을 파편화된 기억(Memory)이나 불투명한 프롬프트로 저장하여 관리와 수정이 어렵다는 한계가 있습니다 .#Review#LLM Agents#Knowledge Distillation#Person-Grounded Skill#Artifact Engineering#Trace-to-Skill#Skill Package2026년 5월 31일댓글 수 로딩 중
[논문리뷰] CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists본 논문은 기존의 인과 추론 벤치마크가 LLM의 진정한 인과적 사고를 평가하기보다 암기된 지식에 의존하는 'Causal parrot' 문제를 해결하기 위해 CausaLab을 제안한다 .#Review#Causal Discovery#LLM Agents#Structural Causal Models#Interactive Benchmarking#Scientific Discovery#Mechanism Recovery2026년 5월 28일댓글 수 로딩 중
[논문리뷰] SkillGrad: Optimizing Agent Skills Like Gradient Descent본 논문은 LLM 에이전트의 도메인 적응력을 높이기 위한 Agent Skills가 흔히 불완전하거나, 시대에 뒤떨어지거나, 신뢰할 수 없다는 문제를 해결하고자 합니다.#Review#Agent Skills#Gradient Descent#Skill Evolution#LLM Agents#Procedural Knowledge#Structured Optimization#Textual Momentum2026년 5월 27일댓글 수 로딩 중
[논문리뷰] AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation본 논문은 과학적 탐구의 장기적인 연구 과정에서 발생하는 비효율적인 실험 반복과 고립된 탐색 문제를 해결하기 위해 AutoScientists를 제안합니다 .#Review#Multi-agent Systems#Scientific Experimentation#Self-Organization#Autonomous Discovery#LLM Agents#BioML-Bench2026년 5월 27일댓글 수 로딩 중
[논문리뷰] SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills본 논문은 LLM Agents가 실제 작업을 해결하면서 축적하는 풍부한 Episodic Experience가 재사용 가능한 Procedural Skills로 증류될 수 있는지 여부가 불분명하다는 핵심 문제를 제기한다.#Review#LLM Agents#Procedural Skills#Skill Formation#Episodic Experience#Benchmarking#Skill Evolution#Abstraction Bottleneck#Deployment Transfer2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World현재 Large Language Model(LLM) 기반 agent 시스템은 user의 digital world 중 매우 제한적인 부분에만 접근하여 context-sensitive reasoning과 효과적인 assistance 제공에 심각한 한계를 보입니다.#Review#Personal Assistant Agents#Benchmark#Context-Aware Reasoning#Multi-device Interaction#Proactive Assistance#Long-horizon Event Streams#LLM Agents#Digital World2026년 5월 25일댓글 수 로딩 중
[논문리뷰] On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists본 연구는 급증하는 과학 연구 논문 생산량에 따른 피어 리뷰 시스템의 확장성 문제를 해결하기 위해 도입된 AI Reviewers의 역량과 신뢰성을 객관적으로 평가하는 것을 목표로 합니다.#Review#AI Reviewers#Peer Review#LLM Agents#Scientific Evaluation#Expert Annotation2026년 5월 20일댓글 수 로딩 중
[논문리뷰] MOCHA: Multi-Objective Chebyshev Annealing for Agent Skill Optimization본 논문은 LLM agent의 skill 최적화가 근본적으로 다목적(multi-objective) 문제임에도 불구하고, 기존 방식들이 이를 단일 목적 함수로 축소함으로써 발생하는 비효율성을 해결하고자 합니다.#Review#Multi-Objective Optimization#LLM Agents#Skill Optimization#Chebyshev Scalarization#Hypervolume#Prompt Engineering#Constraint Satisfaction2026년 5월 20일댓글 수 로딩 중
[논문리뷰] SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution본 연구는 대규모 오픈소스 Skill 생태계의 비정형성, 중복성, 품질 불균형 문제를 해결하고 에이전트의 효율적인 경험 재사용을 가능하게 하는 체계적인 거버넌스 프레임워크를 제안합니다.#Review#LLM Agents#Agent Skills#Lifecycle Governance#Skill Recommendation#Attribution#Skill Evolution2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Look Before You Leap: Autonomous Exploration for LLM Agents본 논문은 현대의 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 조기 착취(Premature Exploitation) 문제에 빠지는 현상을 해결하고자 합니다.#Review#LLM Agents#Autonomous Exploration#RLVR#GRPO#Exploration Checkpoint Coverage#Explore-then-Act2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design본 연구는 Recursive Self-Improvement의 일환으로 LLM 에이전트가 기존 Transformer 패러다임을 넘어선 차세대 foundation model을 자율적으로 설계할 수 있는지 탐구합니다.#Review#Neural Architecture Search#Foundation Models#LLM Agents#Recursive Self-Improvement#Hybrid Architectures#AIRS-Bench2026년 5월 17일댓글 수 로딩 중
[논문리뷰] STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?본 논문은 LLM 에이전트가 장기 기억을 관리할 때 겪는 가장 치명적인 실패 모드인 Implicit Conflict 문제를 해결하고자 합니다 . 기존 연구들은 주로 정적인 사실 검색에 집중되어 있어, 새로운 관찰이 이전 기억을 암묵적으로 무효화하는 상황에서 에이전트가 기억을 갱신하지 못하는 한계를 가지고 있습니다.#Review#LLM Agents#Long-term Memory#Implicit Conflict#State Tracking#Belief Revision#Adjudication2026년 5월 14일댓글 수 로딩 중
[논문리뷰] SPIN: Structural LLM Planning via Iterative Navigation for Industrial Tasks본 연구는 산업용 LLM 에이전트 시스템에서 발생하는 계획의 구조적 불일치와 비효율적인 실행 비용 문제를 해결하고자 합니다. 기존 LLM 플래너는 언어적 추론에는 능하지만, 실제 산업 현장에서 요구되는 구조적 유효성을 보장하지 못해 빈번한 실행 실패를 야기합니다.#Review#LLM Agents#Industrial Asset Operations#DAG#Prefix-based Execution Control#AssetOpsBench#Validator#Simulator-Critic2026년 5월 14일댓글 수 로딩 중
[논문리뷰] EvolveMem:Self-Evolving Memory Architecture via AutoResearch for LLM Agents기존 LLM agent의 기억 시스템은 저장된 데이터(콘텐츠)는 진화하지만, 이를 검색하는 Retrieval 인프라가 배포 시점에 고정되어 있어 시간 경과에 따른 최적화 불일치(Mismatch)가 발생한다.#Review#LLM Agents#Long-term Memory#AutoResearch#Self-evolving Architecture#Retrieval-Augmented Generation2026년 5월 14일댓글 수 로딩 중
[논문리뷰] RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation본 논문은 기존의 ICU 벤치마크들이 임상 의사결정을 단순한 정적 문제로 치부하거나, 과거 임상 기록을 그대로 정답으로 간주하는 'Behavior Imitation' 오류에 빠져 있다는 점을 지적한다.#Review#LLM Agents#ICU#Clinical Decision Support#Hindsight-Annotated Benchmark#Structured Memory#Sequential Decision-Making2026년 5월 13일댓글 수 로딩 중
[논문리뷰] PersonalAI 2.0: Enhancing knowledge graph traversal/retrieval with planning mechanism for Personalized LLM Agents본 논문은 기존 GraphRAG 시스템이 직면한 정적 온톨로지와 비효율적인 그래프 탐색 알고리즘의 한계를 극복하기 위해 PAI-2를 제안합니다. 기존의 모델들은 주로 노드 단위의 단순 검색에 의존하여 다중 홉(multi-hop) 추론 능력이 제한적이거나 도메인 적응성이 낮다는 문제를 가지고 있습니다.#Review#GraphRAG#Search Planning#Graph Traversal#Knowledge Graph#LLM Agents#Multi-hop Reasoning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.#Review#LLM Agents#EHR#Benchmark#FHIR#Clinical Workflows#Agentic Evaluation#Long-horizon Tasks2026년 5월 4일댓글 수 로딩 중
[논문리뷰] From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills본 논문은 LLM 에이전트 시스템이 사용하는 기술(Skill)의 표현 방식이 텍스트 중심의 파편화된 구조에 머물러 있어, 기계적 reasoning과 자동화된 검증에 한계가 있다는 문제의식에서 출발합니다.#Review#LLM Agents#Skill Representation#Scheduling-Structural-Logical (SSL)#Skill Discovery#Risk Assessment#Knowledge Representation2026년 5월 3일댓글 수 로딩 중
[논문리뷰] Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks본 연구는 LLM 기반 에이전트가 복잡하고 긴 호라이즌(Long-Horizon)을 가진 환경에서 일관된 의사결정을 수행하지 못하는 문제를 해결하고자 합니다. 기존 LLM 에이전트는 경험을 체계적으로 발견, 보유, 재사용할 수 있는 메커니즘이 부족하여 새로운 작업마다 매번 처음부터 다시 추론해야 하는 한계가 있습니다.#Review#LLM Agents#Long-Horizon Tasks#Skill Discovery#Co-Evolution#Skill Bank#Reinforcement Learning2026년 4월 23일댓글 수 로딩 중
[논문리뷰] SkillClaw: Let Skills Evolve Collectively with Agentic Evolver본 연구는 다중 사용자 환경에서 발생한 대규모 상호작용 궤적을 중앙 집중적으로 수집하여 자율적으로 스킬을 개선하는 SkillClaw 프레임워크를 제안한다. 수집된 궤적은 스킬별로 그룹화되어 Agentic Evolver에 입력되며, 진화 엔진은 이를 바탕으로 스킬의 Refine, Create, Skip 여부를 결정한다.#Review#LLM Agents#Skill Evolution#Multi-user Ecosystem#Collective Learning#Agentic Evolver#Procedural Memory2026년 4월 9일댓글 수 로딩 중
[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models본 논문은 LLM 에이전트의 기억 능력을 평가하는 기존 벤치마크들이 '명시적 기억(Explicit memory)'의 회상 능력에만 편중되어 있다는 점을 지적한다.#Review#Implicit Memory#LLM Agents#Procedural Memory#Priming#Classical Conditioning#Benchmark#Behavioral Adaptation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills본 논문은 에이전트 스킬 라이브러리가 수천 개 이상으로 확장됨에 따라 발생하는 Skill Retrieval 의 병목 현상과 불완전한 스킬 검색 문제를 해결합니다. 기존의 Vanilla Skills 방식은 전체 라이브러리를 프롬프트에 포함하여 Context Window 오버로드, 토큰 비용 증가, 성능 저하를 초래합니다.#Review#Agentic AI#Skill Retrieval#Graph-based Retrieval#Structural Dependency#Personalized PageRank#LLM Agents2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering저자들은 에이전트의 역량을 Memory(상태의 외부화), Skills(절차적 전문성의 외부화), Protocols(상호작용 구조의 외부화)라는 세 가지 차원으로 구분하여 분석한다 . Memory는 Working Context, Episodic 경험, Semantic 지식, 개인화된 기억을 통해 모델이 에피소드 간 연속성을 유지하도록 돕는다.#Review#LLM Agents#Externalization#Memory#Skills#Protocols#Harness Engineering#Cognitive Artifacts2026년 4월 9일댓글 수 로딩 중
[논문리뷰] SEVerA: Verified Synthesis of Self-Evolving Agents본 연구는 FGGM을 핵심으로 하는 3단계 프레임워크인 SEVerA를 제안합니다. 첫째, Search 단계에서 Planner LLM이 로컬 제약 조건이 설정된 FGGM 기반의 Parametric Program을 합성합니다.#Review#LLM Agents#Automated Verification#Deductive Program Synthesis#Formally Guarded Generative Models#Constraint-Guided Synthesis2026년 4월 8일댓글 수 로딩 중
[논문리뷰] How Well Do Agentic Skills Work in the Wild: Benchmarking LLM Skill Usage in Realistic Settings본 논문은 기존의 에이전트 스킬 연구가 지나치게 이상적인 환경에서 수행되고 있다는 점을 지적하며, 현실적인 설정에서 스킬의 유용성을 규명하고자 한다.#Review#LLM Agents#Agentic Skills#Skill Retrieval#Skill Refinement#Benchmarking#Test-time Adaptation2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Context-Value-Action Architecture for Value-Driven Large Language Model Agents본 논문은 LLM 기반 에이전트가 인간의 행동을 시뮬레이션할 때 발생하는 Behavioral Rigidity 와 양극화 문제를 해결하고자 합니다.#Review#LLM Agents#Value Alignment#Behavioral Fidelity#S-O-R Model#Value-Driven Reasoning#CVABench2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SkillX: Automatically Constructing Skill Knowledge Bases for Agents저자들은 에이전트의 경험을 계층적으로 구조화하여 재사용성을 극대화하는 SkillX 프레임워크를 제안합니다 . SkillX는 고성능 backbone 에이전트인 GLM-4.6을 사용하여 훈련 태스크를 수행하고, 성공한 trajectory로부터 Planning, Functional, Atomic 단계의 skill을 증류(distill)합니다.#Review#LLM Agents#Skill Knowledge Base#Hierarchical Representation#Autonomous Experience Learning#Agent Self-Evolution#Tool Use2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Learning to Learn-at-Test-Time: Language Agents with Learnable Adaptation Policies본 논문은 LLM 기반 에이전트가 새로운 환경에서 적응하지 못하고 에피소드마다 동일한 오류를 반복하는 한계를 해결하고자 한다. 기존의 TTL 방식은 주로 고정된, 사람이 직접 설계한(hand-crafted) 휴리스틱에 의존하며, 이는 에이전트의 실질적인 학습 능력을 충분히 이끌어내지 못한다.#Review#Test-Time Learning#Language Agents#Meta-Learning#Evolutionary Optimization#Adaptive Policy#LLM Agents#Prompt Engineering2026년 4월 6일댓글 수 로딩 중
[논문리뷰] AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks저자들은 AgentSocialBench를 도입하여 7개 카테고리, 300개 이상의 시나리오를 통해 에이전트의 프라이버시 보존 성능을 체계적으로 평가합니다 . 제안된 프레임워크는 사용자 프로파일의 민감도 계층, 지향성 사회 그래프, 그리고 명시적 프라이버시 경계를 포함합니다.#Review#LLM Agents#Agentic Social Networks#Privacy Preservation#Contextual Integrity#Information Abstraction#Abstraction Paradox2026년 4월 5일댓글 수 로딩 중
[논문리뷰] Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents본 논문은 현대의 LLM 기반 코딩 에이전트들이 실제 소프트웨어 공학 환경의 모호한 요구사항(Underspecified instructions)을 마주했을 때, 이를 능동적으로 해결하지 못하고 맹목적으로 실행(Autonomous execution)하는 문제를 해결하고자 한다.#Review#LLM Agents#Software Engineering#Underspecification#Uncertainty-Aware#Multi-Agent#Collaborative AI2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent SkillsLarge Language Model (LLM) 기반의 Agent는 복잡한 태스크를 해결하기 위해 Domain-specific Skill에 대한 의존도가 높아지고 있습니다.#Review#LLM Agents#Skill Evolution#Trajectory Analysis#Inductive Reasoning#Transferable Skills#Conflict-Free Consolidation2026년 3월 29일댓글 수 로딩 중
[논문리뷰] MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-EvolutionLarge Language Models (LLMs) 기반의 Agent들이 장기적인 상호작용을 지원하기 위해 외부 메모리 뱅크를 활용하지만, 대부분의 기존 시스템은 메모리 Construction , Retrieval , Utilization 단계를 개별적인 서브루틴으로 분리하여 처리하는 한계를 가집니다.#Review#LLM Agents#Memory Cycle#Multi-Agent Reasoning#Self-Evolution#Long-Horizon Memory#Strategic Blindness#Memory Management2026년 3월 26일댓글 수 로딩 중
[논문리뷰] FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol최근 Large Language Models (LLMs)는 금융 애플리케이션에서 agent 로서 사용자 요청을 해석하고, 외부 도구를 호출하며, 다단계 추론을 수행해야 하는 역할을 점점 더 많이 맡고 있습니다.#Review#LLM Agents#Financial Tool Use#Benchmarking#Model Context Protocol#Multi-tool Reasoning#Multi-turn Conversation#Evaluation Metrics2026년 3월 26일댓글 수 로딩 중
[논문리뷰] T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search기존 LLM red-teaming 연구는 주로 모델에서 유해한 텍스트 출력(harmful text outputs)을 유도하는 데 초점을 맞추었으나, 이는 Model Context Protocol (MCP)과 같은 통합 표준을 통해 다단계 도구 실행(multi-step tool execution)이 가능한 LLM Agents의 새로운 안전 위험을 간과하고 있습니다.#Review#LLM Agents#Red-Teaming#Vulnerability Discovery#Trajectory-aware Search#MAP-Elites#Tool Call Graph#Attack Realization Rate2026년 3월 25일댓글 수 로딩 중
[논문리뷰] Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments최근 LLM(Large Language Models)의 발전은 복잡한 태스크에서 추론, 계획 및 실행이 가능한 에이전트 시스템을 가능하게 했지만, 불확실한 환경에서 자원을 효과적으로 할당할 수 있는지에 대한 여부는 불분명하다. resource allocation 은 단기적인 반응적 의사결정과 근본적으로 다르다.#Review#LLM Agents#Resource Allocation#Enterprise Simulation#Financial Management#Uncertainty#Long-Horizon Decision-Making#CFO2026년 3월 25일댓글 수 로딩 중
[논문리뷰] From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM AgentsLLM 기반 시스템은 단일 프롬프트에 응답하는 단순한 챗봇을 넘어, LLM 호출, 정보 검색, 툴 사용, 코드 실행, 메모리 업데이트 및 검증을 통합하는 실행 가능한 워크플로를 구성하여 태스크를 해결하는 방식으로 발전하고 있습니다.#Review#LLM Agents#Workflow Optimization#Agentic Computation Graphs (ACGs)#Static Optimization#Dynamic Optimization#Runtime Adaptation#Evaluation Protocol#Feedback Signals2026년 3월 24일댓글 수 로딩 중
[논문리뷰] REVERE: Reflective Evolving Research Engineer for Scientific Workflows기존의 Prompt-Optimization Techniques는 주로 Local Signals에 의존하여 Behavior를 업데이트하며, 이로 인해 Generalization이 저하되고 Full-Prompt Rewrites나 Unstructured Merges 과정에서 Knowledge Loss가 발생합니다.#Review#LLM Agents#Self-Adaptation#Research-Coding Workflows#Prompt Optimization#Global Training Context#Code-Based Edits#Continual Learning#Semantic Drift2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Deep Tabular Research via Continual Experience-Driven ExecutionLarge language models (LLMs)는 구조화된 데이터에 대한 reasoning에서 상당한 능력을 보여주었지만, hierarchical 및 bidirectional header , merged cell , non-canonical layout 을 포함하는 unstructured table에 대한 complex long-horizon analytical task 에서는 어려움을 겪습니다.#Review#Deep Tabular Research#LLM Agents#Tabular Reasoning#Continual Learning#Experience-Driven Execution#Multi-hop Reasoning#Unstructured Tables2026년 3월 22일댓글 수 로딩 중
[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM AgentsLarge language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.#Review#LLM Agents#Subgoals#Reinforcement Learning#Web Navigation#Long-Horizon Planning#Reward Shaping#Curriculum Learning2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Memento-Skills: Let Agents Design Agents현대의 Large Language Models (LLMs) 은 few-shot learning , supervised fine-tuning , post-training 을 통해 다양한 시나리오에서 탁월한 성능을 보이지만, 실제 활용을 위해서는 막대한 데이터와 컴퓨팅 자원을 요구하는 parameter optimization 이 필수적입니다.#Review#LLM Agents#Continual Learning#Skill Learning#Reinforcement Learning#Memory-based Agents#Agent Design#Read-Write Reflective Learning#Offline RL2026년 3월 19일댓글 수 로딩 중
[논문리뷰] AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents최근 LLM 기반 에이전트들은 장기적인 상호작용, 개인화된 지원 및 다단계 추론을 지원하기 위해 외부 메모리에 점점 더 의존하고 있습니다. 그러나 기존 메모리 시스템은 세 가지 핵심 문제에 직면합니다.#Review#LLM Agents#Dialogue Memory#User-Centric#Adaptive Retrieval#Graph Memory#Multi-Agent Systems#Long-Horizon Reasoning2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Hindsight Credit Assignment for Long-Horizon LLM Agents본 논문은 Long-Horizon, Multi-Step 태스크에서 희소한 보상(Sparse Rewards) 으로 인해 LLM 에이전트 가 겪는 Credit Assignment 의 어려움을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Credit Assignment#Hindsight Credit Assignment#Policy Optimization#Sparse Rewards#Long-Horizon Tasks#Generative Verification2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Agentic Critical Training본 논문은 LLM 에이전트가 단순한 모방을 넘어, 행동의 품질에 대한 자율적인 비판적 추론 및 진정한 자기 성찰 능력 을 개발하도록 훈련시키는 것을 목표로 합니다. 기존 모방 학습(IL)이 '무엇을 할지'만 가르치고 '왜 그 행동이 더 나은지'에 대한 이해가 부족하다는 한계를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Imitation Learning#Self-Reflection#Action Quality#Out-of-Distribution Generalization#Critical Reasoning#GRPO2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Mozi: Governed Autonomy for Drug Discovery LLM Agents약물 발견과 같은 고위험 과학 도메인에서 제한 없는 LLM 에이전트 가 겪는 도구 사용 환각, 재현 불가능성, 그리고 장기적 신뢰성 부족 문제를 해결하고자 합니다.#Review#LLM Agents#Drug Discovery#Governed Autonomy#Multi-Agent System#Workflow Orchestration#Human-in-the-Loop#Computational Biology#Reproducibility2026년 3월 5일댓글 수 로딩 중
[논문리뷰] DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval본 논문은 LLM 에이전트가 Python 중심의 학습 데이터로 인해 R 통계 생태계의 풍부한 통계 방법론을 활용하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#LLM Agents#R Statistical Ecosystem#Retrieval-Augmented Generation#Distribution-Aware Retrieval#R Package Knowledge Base#Statistical Analysis#Embedding Models2026년 3월 5일댓글 수 로딩 중
[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.#Review#LLM Agents#Software Engineering#Code Maintenance#Continuous Integration#Benchmark#Code Generation#Long-term Evaluation#Technical Debt2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.#Review#LLM Agents#Long-Horizon Tasks#Memory Management#Indexed Experience Memory#Reinforcement Learning#Context Window#Tool Use#MEMEXRL2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.#Review#Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning#Zero-Data Learning#LLM Agents#Curriculum Learning#Reward Shaping#Co-evolution2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.#Review#LLM Agents#Reinforcement Learning#Exploration#Memory Augmentation#Hybrid RL#On-Policy Optimization#Off-Policy Optimization2026년 2월 26일댓글 수 로딩 중
[논문리뷰] AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning본 논문은 다중 에이전트 시스템(MAS) 내에서 개별 에이전트의 오류 정보가 하위 에이전트로 연쇄적으로 전파(cascading impact) 되어 전체 태스크 성능을 저하시키는 문제를 해결하고자 합니다.#Review#Multi-Agent Systems#Information Flow Optimization#Test-Time Rectification#Error Pruning#LLM Agents#Failure-Driven Indicators#Adaptive Reasoning2026년 2월 26일댓글 수 로딩 중
[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI ResearchAI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.#Review#LLM Agents#AI Research#Benchmark#Closed-loop Research#Agent Evaluation#Reproducibility#Real-world Tasks2026년 2월 17일댓글 수 로딩 중
[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Tool-use#Scientific Reasoning#Benchmarking#Interactive Environment#Data Synthesis#Error Recovery#Multi-step Tasks2026년 2월 15일댓글 수 로딩 중
[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement LearningLLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다.#Review#LLM Agents#Reinforcement Learning#Skill Discovery#Recursive Evolution#Experience Distillation#Hierarchical Skills#Context Efficiency#Task Planning2026년 2월 10일댓글 수 로딩 중
[논문리뷰] ScaleEnv: Scaling Environment Synthesis from Scratch for Generalist Interactive Tool-Use Agent Training본 논문은 일반 목적의 도구 사용 에이전트 훈련에 필요한 대규모의 사실적이고 검증 가능한 인터랙티브 환경 이 부족하다는 문제를 해결하고자 합니다.#Review#Environment Synthesis#Tool-Use Agents#Reinforcement Learning#Generalization#Procedural Generation#LLM Agents#Interactive Environments#Data Scaling2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory이 논문은 LLM 에이전트의 기존 오프라인, 쿼리-불가지론적 메모리 구성 방식이 비효율적이며 쿼리-중요 정보를 놓칠 수 있다는 문제를 제기합니다. 핵심 목표는 런타임 메모리 추출을 위해 명시적이고 제어 가능한 성능-비용 트레이드오프 를 가능하게 하는 프레임워크를 개발하는 것입니다.#Review#LLM Agents#Runtime Memory#Budget-Tier Routing#Reinforcement Learning#Performance-Cost Trade-off#Modular Memory Pipeline#Query-Aware Memory#Resource Management2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.#Review#AI Research Agents#LLM Agents#Machine Learning Benchmarks#Scientific Discovery#Code Generation#Evaluation Metrics#Scaffolds#Reproducibility2026년 2월 9일댓글 수 로딩 중
[논문리뷰] OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions현재 LLM 에이전트 평가가 주로 연역적(deductive) 패러다임 에 집중되어 있어, 에이전트가 환경의 숨겨진 규칙을 자율적으로 발견하는 귀납적(inductive) 능력 을 측정하는 데 한계가 있음을 지적합니다.#Review#LLM Agents#Benchmarking#Inductive Reasoning#Long-Horizon Tasks#Active Exploration#World Models#Autonomous Discovery2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Spider-Sense: Intrinsic Risk Sensing for Efficient Agent Defense with Hierarchical Adaptive Screening본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 보안 취약점을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Agent Security#Intrinsic Risk Sensing#Adaptive Defense#Hierarchical Screening#Attack Detection#S2Bench Benchmark2026년 2월 5일댓글 수 로딩 중
[논문리뷰] CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty기존 LLM 에이전트 벤치마크가 이상적인 설정에서의 태스크 완료에만 초점을 맞추고 실제 환경에서의 신뢰성, 일관성, 한계 인식 을 간과하는 문제를 해결하고자 합니다.#Review#LLM Agents#Benchmarks#Tool-use#Consistency#Uncertainty Handling#Hallucination#In-car Assistant#Policy Adherence2026년 2월 5일댓글 수 로딩 중
[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.#Review#LLM Agents#Test-Time Improvement#Diagnostic Evaluation#Trajectory Analysis#Performance Metrics#Behavior Adaptation#Memory Management#POMDP2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning이 논문은 LLM 에이전트가 복잡한 실제 작업을 수행할 때 발생하는 과도한 사고(thought) 및 관찰(observation) 컨텍스트 축적 문제 를 해결하고 효율성을 향상시키는 것을 목표로 합니다.#Review#LLM Agents#Agent Efficiency#Context Management#Thought Omission#Observation Omission#Reinforcement Learning#Adaptive Policy2026년 2월 4일댓글 수 로딩 중
[논문리뷰] WideSeek: Advancing Wide Research via Multi-Agent Scaling본 논문은 기존의 심층 연구(Deep Research) 패러다임이 아닌, 복잡한 제약 조건 하에서 포괄적인 정보를 병렬적으로 검색하고 종합하는 광범위 연구(Wide Research) 패러다임의 발전을 목표로 합니다. 특히, 이러한 광범위 검색을 위한 전용 벤치마크 및 최적화 방법론의 부족이라는 문제를 해결하고자 합니다.#Review#Wide Research#Multi-Agent Systems#Reinforcement Learning#Information Seeking#Benchmarking#LLM Agents#Knowledge Graphs2026년 2월 3일댓글 수 로딩 중
[논문리뷰] SWE-Universe: Scale Real-World Verifiable Environments to Millions본 논문은 낮은 생산 수율, 취약한 검증기, 과도한 비용 등 기존의 자동화된 소프트웨어 엔지니어링(SWE) 검증 가능 환경 구축의 문제점을 해결하고자 합니다.#Review#Software Engineering Environments#LLM Agents#Data Generation#Verifiable Tasks#Multilingual#Reinforcement Learning#Self-Verification#Hacking Detection2026년 2월 2일댓글 수 로딩 중
[논문리뷰] FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents본 논문은 대규모 언어 모델(LLM) 에이전트가 긴 호라이즌의 심층 연구 작업을 수행할 때 발생하는 컨텍스트 창 제한 문제를 해결하고자 합니다. 이는 토큰 예산을 압축하고 효과적인 테스트 시간 스케일링을 방해하여 보고서의 불완전한 커버리지와 낮은 품질을 초래합니다.#Review#LLM Agents#Deep Research#Long-Horizon Tasks#Test-Time Scaling#File System#Persistent Workspace#Knowledge Base#Dual-Agent Framework2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific NarrativesIdea2Story는 기존 LLM 기반 자율 과학 연구 에이전트의 비효율성, 컨텍스트 윈도우 한계, 취약한 추론 및 환각 문제를 해결하는 것을 목표로 합니다. 문헌 이해를 온라인 실시간 추론에서 오프라인 지식 구성으로 전환하여, 확장 가능하고 신뢰할 수 있는 자율 과학 발견을 위한 실용적인 기반을 마련하고자 합니다.#Review#Autonomous Scientific Discovery#LLM Agents#Knowledge Graph#Pre-computation#Research Pattern#Methodology#Retrieval-Augmented Generation#Review-Guided Refinement2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning본 논문은 대규모 언어 모델(LLM) 기반의 에이전트가 장기적인 태스크를 수행할 때 발생하는 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다. 기존 RL 방법론은 컴퓨팅 자원을 중간 단계에 균일하게 할당하여 중요하지 않은 단계에서 자원을 낭비하고 고품질 궤적 확보에 실패하는 한계를 가지고 있습니다.#Review#Agentic AI#Reinforcement Learning#Long-Horizon Tasks#Dynamic Branching#Strategic Exploration#LLM Agents#Sample Efficiency#Policy Optimization2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Cross-Domain Generalization#State Information Richness#Planning Complexity#State Augmentation#Step-by-Step Reasoning#Mid-Training2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints기존 LLM 에이전트 평가 벤치마크들이 주로 국소적인 추론에 집중하고 실제 환경의 복잡한 전역 제약 최적화, 능동적인 정보 탐색, 세부적인 지역 제약 사항을 충분히 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Long-Horizon Planning#Benchmarking#Verifiable Constraints#Tool Use#Constraint Optimization#Information Acquisition#Travel Planning#Shopping Planning2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DRPG (Decompose, Retrieve, Plan, Generate): An Agentic Framework for Academic Rebuttal본 논문은 학술적 동료 심사 과정에서 중요한 단계인 학술 리버탈(rebuttal)에 대한 자동화된 지원이 부족하고, 기존 LLM 기반 접근 방식이 긴 컨텍스트 이해와 설득력 있는 응답 생성에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다.#Review#Academic Rebuttal#LLM Agents#Peer Review Automation#Generative AI#Retrieval-Augmented Generation (RAG)#Strategic Planning#Persuasion2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response AssistanceAI/ML 논문 심사 과정에서 발생하는 저자 답변(rebuttal) 작성의 어려움을 해결하는 것을 목표로 합니다.#Review#Multi-Agent Framework#LLM Agents#Peer Review#Rebuttal Generation#Evidence-centric Planning#Transparency#Human-in-the-loop2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Agentic Reasoning for Large Language Models본 설문조사 논문은 대규모 언어 모델(LLM)의 추론 능력이 정적인 폐쇄형 환경에서 벗어나 동적이고 개방형 환경에서 계획, 행동, 학습을 통해 지속적으로 상호작용하는 자율 에이전트 로 발전하는 Agentic Reasoning 패러다임을 체계화하는 것을 목표로 합니다.#Review#Agentic Reasoning#LLM Agents#Self-Evolving AI#Multi-Agent Systems#Planning#Tool Use#Retrieval-Augmented Generation#Reinforcement Learning2026년 1월 21일댓글 수 로딩 중
[논문리뷰] AgentEHR: Advancing Autonomous Clinical Decision-Making via Retrospective Summarization본 논문은 LLM의 자율적인 EHR(전자건강기록) 탐색 및 임상 의사 결정 능력이 현재까지 이상화된 실험 설정에 의해 제한되어 있음을 지적합니다. 특히, 기존 요약 방식의 정보 손실과 추론 단절 문제를 해결하여 복잡한 임상 진단 및 치료 계획 태스크 에서 장문 맥락 상호작용 추론 을 가능하게 하는 것을 목표로 합니다.#Review#Clinical Decision-Making#LLM Agents#EHR#Retrospective Summarization#Long-Context Reasoning#Experience Replay#Healthcare AI2026년 1월 21일댓글 수 로딩 중
[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.#Review#LLM Agents#Agent Efficiency#Memory Management#Tool Learning#AI Planning#Resource Optimization#Cost-Performance Trade-off2026년 1월 20일댓글 수 로딩 중
[논문리뷰] ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development기존 코드 생성 벤치마크들이 정적인 코드 로직 평가에 집중하여 실제 백엔드 개발의 동적이고 전체 프로세스 요구사항(환경 구성, 서비스 배포 등)을 간과하는 문제를 해결하고자 합니다.#Review#Backend Development#LLM Agents#Code Generation#Benchmarking#DevOps#Containerization#End-to-End Testing#Environment Configuration2026년 1월 19일댓글 수 로딩 중
[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 물리적으로 제한된 실제 환경, 특히 다양한 목표와 엄격한 제약을 가진 우주 계획 문제(SPP) 에서 얼마나 효과적으로 계획하고 행동할 수 있는지 평가하는 것을 목표로 합니다.#Review#LLM Agents#Space Planning#Benchmark#Agentic Planning#Physics Constraints#Decision Making#Zero-Shot Learning2026년 1월 18일댓글 수 로딩 중
[논문리뷰] Toward Ultra-Long-Horizon Agentic Science: Cognitive Accumulation for Machine Learning Engineering본 논문은 에이전트 기반 과학에서 초장기 자율성(ultra-long-horizon autonomy) 의 핵심 병목 현상을 해결하고자 합니다.#Review#Agentic AI#Long-Horizon Autonomy#Cognitive Accumulation#Hierarchical Cognitive Caching (HCC)#Context Management#Machine Learning Engineering (MLE)#LLM Agents2026년 1월 15일댓글 수 로딩 중
[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Tool Use Safety#Guardrail#Step-level Safety Detection#Prompt Injection#Reinforcement Learning#Feedback Framework2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Imagine-then-Plan: Agent Learning from Adaptive Lookahead with World Models대규모 언어 모델(LLM) 기반 에이전트가 '얕은 그라운딩(shallow grounding)' 문제로 인해 행동의 장기적 결과를 예측하지 못하여 발생하는 실패를 해결하는 것이 목표입니다.#Review#LLM Agents#World Models#Adaptive Planning#Lookahead#Reinforcement Learning#POMDP#Task Planning#Reasoning2026년 1월 14일댓글 수 로딩 중
[논문리뷰] EvoFSM: Controllable Self-Evolution for Deep Research with Finite State MachinesLLM 기반 에이전트가 심층 연구 과정에서 겪는 고정된 워크플로우 의 한계와 무제한적인 자기 진화 로 인한 불안정성(instruction drift, hallucination) 문제를 해결하는 것입니다.#Review#LLM Agents#Self-Evolution#Finite State Machines#Deep Research#Multi-hop QA#Adaptive Workflow#Memory Mechanism#Controllable AI2026년 1월 14일댓글 수 로딩 중
[논문리뷰] The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents본 논문은 대규모 언어 모델(LLM) 기반 자율 에이전트의 신뢰성을 높이기 위해, 도구 사용 환경에서 발생하는 verbalized calibration(언어화된 확신) 의 문제를 분석하고 완화하는 것을 목표로 합니다.#Review#LLM Agents#Calibration#Tool Use#Reinforcement Learning#Miscalibration#Overconfidence#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.#Review#Executive Memory#LLM Agents#Reasoning#Context Management#Tool-Augmented Agents#Memory Management#Trajectory Folding#Preference Optimization2026년 1월 13일댓글 수 로딩 중
[논문리뷰] ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking본 연구는 개방형 에이전트 태스크에서 LLM 에이전트 의 강화 학습(RL) 성능을 저해하는 '판별 붕괴(discriminative collapse)' 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Open-Ended Tasks#Relative Ranking#Tournament-based Ranking#Discriminative Collapse#Reward Modeling#Benchmarks2026년 1월 13일댓글 수 로딩 중
[논문리뷰] TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning본 논문은 여행 계획 생성 시 발생하는 세 가지 주요 문제를 해결하는 것을 목표로 합니다: 방대한 관심 지점(POI) 후보군의 효율적인 가지치기, 단일 추론 경로로 인한 해법 공간 탐색 능력 제한, 그리고 하드 제약(예: 유효 방문 시간)과 소프트 제약(예: 경로 효율성)의 동시 최적화 어려움.#Review#Travel Planning#LLM Agents#Reinforcement Learning#Multi-path Reasoning#Constraint Satisfaction#POI Optimization#Chain-of-Thought2026년 1월 12일댓글 수 로딩 중
[논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning기존 대규모 언어 모델(LLM) 에이전트용 강화 학습(RL) 시스템의 한계를 극복하고, 에이전트 환경 및 상호작용 프로토콜의 재사용성 부족, 그리고 에이전트 프로그래밍과 실행 간의 분리 부재 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Agents#Multi-Agent Systems#System Architecture#Separation of Concerns#RLaaS#Distributed Training#Agent Protocol Coordination2026년 1월 12일댓글 수 로딩 중
[논문리뷰] Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning현재 LLM 에이전트 메모리 시스템이 주로 사용하는 평면적인 정보 저장 방식과 단순 유사성 기반 검색의 한계를 극복하는 것이 목표입니다.#Review#LLM Agents#Agent Memory#Event Graph#Long-term Reasoning#Knowledge Graph#Active Retrieval#Event Segmentation#Multi-hop QA2026년 1월 11일댓글 수 로딩 중
[논문리뷰] AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering본 논문은 LLM 에이전트의 자기 개선 방식이 종종 불안정하고 감사하기 어렵다는 문제점을 지적합니다.#Review#LLM Agents#Release Engineering#Self-Improvement#Regression Testing#Continuous Integration#Flip-Centered Gating#Auditable Development#Software Engineering2026년 1월 8일댓글 수 로딩 중
[논문리뷰] AT^2PO: Agentic Turn-based Policy Optimization via Tree Search본 논문은 LLM 에이전트의 다중 턴(multi-turn) 작업에서 발생하는 세 가지 핵심 문제를 해결하고자 합니다.#Review#Agentic RL#Multi-turn Tasks#Policy Optimization#Tree Search#Credit Assignment#Exploration Diversity#LLM Agents2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts본 논문은 최신 추론형 LLM(Large Language Models)이 최소한의 코드 스캐폴딩과 기본적인 도구를 사용하여 연구 아이디어 구상부터 최종 연구 논문 작성까지 높은 자율성 을 가지고 수행할 수 있는지 탐구하는 것을 목표로 합니다.#Review#Machine Learning Research#Autonomous Research#LLM Agents#Scientific Workflow#Failure Modes#Experimental Design#AI Scientist#Agentic Systems2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents본 논문은 대규모 언어 모델(LLM) 에이전트의 Chain-of-Thought(CoT) 추론 과정 이 실제 모델 출력의 원인인지 혹은 사후 합리화인지에 대한 'Faithfulness Gap' 문제를 해결하고자 합니다.#Review#LLM Agents#Faithfulness#XAI#Causal Inference#Structural Causal Models#Counterfactual Interventions#Reasoning Trace Auditing#Causal Decoupling2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization본 논문은 기존 LLM 에이전트 프레임워크가 겪는 높은 구성 비용 과 정적 기능 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Automated Agent Generation#Reinforcement Learning#Hybrid Policy Optimization#Tool Synthesis#In-context Learning#Agent Framework#Scalability2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Nested Browser-Use Learning for Agentic Information Seeking정보 탐색(IS) 에이전트의 현재 브라우저 도구 사용이 API 수준의 스니펫 검색 및 URL 기반 페이지 가져오기에 국한되어 실제 브라우징을 통한 풍부한 정보 접근이 제한되는 문제를 해결하고자 합니다.#Review#Agentic Information Seeking#LLM Agents#Browser Automation#Nested Framework#Tool Learning#Context Efficiency#Deep Web2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning for Self-Improving Agent with Skill Library본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 복잡한 환경에서 지속적으로 자체 개선하고 적응하는 데 어려움을 겪는 문제를 해결합니다.#Review#Reinforcement Learning (RL)#LLM Agents#Skill Library#Self-Improvement#Sequential Rollout#AppWorld dataset#GRPO2025년 12월 23일댓글 수 로딩 중
[논문리뷰] MemEvolve: Meta-Evolution of Agent Memory Systems본 논문은 LLM 기반 에이전트의 고정된 메모리 시스템 아키텍처가 다양한 태스크 컨텍스트에 메타 적응할 수 없는 근본적인 한계 를 해결하고자 합니다.#Review#LLM Agents#Memory Systems#Meta-Evolution#Self-Evolving AI#Memory Architecture#EvolveLab#Generalization2025년 12월 23일댓글 수 로딩 중
[논문리뷰] GenEnv: Difficulty-Aligned Co-Evolution Between LLM Agents and Environment Simulators본 논문은 대규모 언어 모델(LLM) 에이전트 훈련의 주요 병목인 높은 비용과 실세계 상호작용 데이터의 정적인 특성을 해결하고자 합니다.#Review#LLM Agents#Environment Simulation#Co-evolution#Curriculum Learning#Data Efficiency#Reinforcement Learning#Adaptive Simulation#Difficulty Alignment2025년 12월 22일댓글 수 로딩 중
[논문리뷰] Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs본 논문은 멀티턴 LLM 에이전트 학습에서 기존 GRPO(Group Relative Policy Optimization) 의 불안정성과 비효율성을 해결하고자 합니다. 특히 긴 추론이 필요한 시나리오에서 샘플링 분산이 높고, 턴별 기여도가 불균등하여 불정확한 어드밴티지 추정이 발생하는 문제를 개선하는 것을 목표로 합니다.#Review#Multi-Turn Reinforcement Learning#LLM Agents#Proximal Policy Optimization (PPO)#Turn-Level MDP#Advantage Estimation#Generative AI#Deep Reinforcement Learning2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Meta-RL Induces Exploration in Language Agents본 논문은 기존 강화 학습(RL) 기반의 대규모 언어 모델(LLM) 에이전트가 환경에서 능동적인 탐색과 시행착오 경험으로부터 효율적인 정책 적응에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Meta-RL#LLM Agents#Exploration#Reinforcement Learning#Policy Adaptation#In-context Learning#Self-reflection#Multi-episode tasks2025년 12월 21일댓글 수 로딩 중
[논문리뷰] SCOPE: Prompt Evolution for Enhancing Agent Effectiveness대규모 언어 모델(LLM) 에이전트가 방대한 동적 컨텍스트에 직면했을 때 정적인 프롬프트로 인해 발생하는 '수정(Corrective)' 및 '강화(Enhancement)' 실패 를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Prompt Optimization#Context Management#Online Learning#Agent Effectiveness#Self-Evolving Prompts#Trace-Based Learning#Dual-Stream Routing2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents본 논문은 복잡한 인터랙티브 태스크에서 LLM 에이전트가 직면하는 프라이버시 제약으로 인해 중앙 집중식 최적화 및 동적 환경 간 공동 진화가 어려운 문제를 해결하고자 합니다.#Review#Federated Learning (FL)#LLM Agents#Self-Evolution#Privacy-Preserving#Multi-Environment#Parameter-Efficient Fine-Tuning#Low-Rank Aggregation#Reinforcement Learning2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning이 논문은 대규모 언어 모델(LLM) 에이전트가 국제 수학 올림피아드(IMO) 수준의 기하학 문제 를 해결하는 데 있어 기존 전문가 시스템의 한계를 극복하는 것을 목표로 합니다.#Review#LLM Agents#Geometry Problem Solving#Reinforcement Learning#Curriculum Learning#Auxiliary Construction#Symbolic Reasoning#IMO2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.#Review#Clinical Dialogue#LLM Agents#Healthcare AI#Agentic Paradigm#Medical Decision Support#Knowledge Grounding#AI Safety#Workflow Automation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing기존 LLM 기반 글쓰기 보조 도구가 편집기 외부에 존재하여 발생하는 컨텍스트 전환, 상호작용 기록 단절, 문서 상태와의 심층적 상호작용 부족 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Academic Writing#In-editor Assistant#Multi-agent System#Overleaf Integration#Chrome Extension#Kubernetes#XtraMCP2025년 12월 4일댓글 수 로딩 중
[논문리뷰] DR Tulu: Reinforcement Learning with Evolving Rubrics for Deep Research이 논문의 핵심 목표는 기존 개방형 심층 연구 모델들이 짧은 형식의 질문 답변(QA)에 초점을 맞춰 실제 장문형 심층 연구 작업에 적용하기 어렵다는 한계를 극복하는 것입니다.#Review#Reinforcement Learning#Evolving Rubrics#Deep Research#LLM Agents#Tool Use#Long-form QA#Open-source AI#Dynamic Evaluation2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Budget-Aware Tool-Use Enables Effective Agent Scaling이 논문은 대규모 언어 모델(LLM) 기반 에이전트의 효과적인 테스트 시간 스케일링(test-time scaling) 에 대한 연구를 목표로 합니다. 특히, 도구 사용 에이전트가 명시적인 예산 제약 조건 하에서 외부 환경과의 상호작용(도구 호출)을 어떻게 효율적으로 활용하여 성능을 최적화할 수 있는지를 탐구합니다.#Review#LLM Agents#Tool Use#Budget Awareness#Test-time Scaling#Cost-Performance#Web Search Agents#Planning#Self-Verification2025년 11월 24일댓글 수 로딩 중
[논문리뷰] O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents기존 LLM 기반 에이전트가 장기적인 상호작용, 맥락적 일관성, 동적 개인화에 직면하는 한계를 극복하는 것이 목표입니다.#Review#Memory System#LLM Agents#Personalization#User Profiling#Hierarchical Retrieval#Long-Term Interaction#Self-Evolving Agents#Contextual Consistency2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.#Review#LLM Agents#Reinforcement Learning#Markov Decision Process#Tool Use#Multi-turn Interaction#Policy Optimization#Reward Shaping#Agent Framework2025년 11월 18일댓글 수 로딩 중
[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.#Review#LLM Agents#Software Engineering#Long-Context#Interactive Benchmark#Tool Usage#Memory Management#Bias-Free Evaluation#Multi-Turn2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?이 논문은 기존 LLM 기반 소프트웨어 에이전트가 고정된 설계와 값비싼 오프라인 훈련으로 인해 성능이 최적화되지 못하고 특정 벤치마크에 국한되는 한계를 해결하고자 합니다.#Review#Software Engineering Agents#LLM Agents#Self-Evolution#On-the-Fly Learning#Tool Creation#SWE-bench#Autonomous Systems#Code Generation2025년 11월 17일댓글 수 로딩 중
[논문리뷰] IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction이 논문은 기존 딥-리서치 에이전트들이 단일 확장 컨텍스트 창에 정보를 축적하는 mono-contextual paradigm으로 인해 발생하는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제를 해결하는 것을 목표로 합니다.#Review#Long-Horizon Agents#Markov Decision Process#Workspace Reconstruction#Reinforcement Learning#Context Management#Iterative Deep Research#LLM Agents#Efficiency-Aware Policy Optimization2025년 11월 10일댓글 수 로딩 중
[논문리뷰] FLEX: Continuous Agent Evolution via Forward Learning from Experience본 논문의 핵심 목표는 기존 LLM(Large Language Model) 에이전트의 고정된 특성, 경험 기반 학습의 부재, 파라미터 최적화의 높은 비용 및 카타스트로픽 망각 문제점을 해결하는 것입니다.#Review#LLM Agents#Continuous Learning#Experience Library#Forward Learning#Meta-MDP#Knowledge Distillation#Non-parametric Adaptation2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Real-Time Reasoning Agents in Evolving Environments본 논문은 실시간으로 변화하는 환경에서 대규모 언어 모델(LLM) 기반 에이전트가 논리적이고 시의적절한 판단을 내리는 실시간 추론(Real-Time Reasoning) 이라는 근본적인 과제를 해결하는 것을 목표로 합니다.#Review#Real-time Reasoning#LLM Agents#Dynamic Environments#Dual-System AI#AgileThinker#Reactive Planning#Cognitive Load#Time Pressure2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Scaling Agent Learning via Experience Synthesis대규모 언어 모델(LLM) 에이전트의 강화 학습(RL) 훈련이 직면한 높은 비용, 제한된 태스크 다양성, 불안정한 보상 신호, 복잡한 인프라와 같은 문제들을 해결하는 것을 목표로 합니다. 현실 환경 상호작용의 필요성을 줄이면서도 효과적이고 확장 가능한 RL 훈련을 가능하게 하는 통합 프레임워크를 제안합니다.#Review#Reinforcement Learning#LLM Agents#Experience Synthesis#World Models#Curriculum Learning#Sim-to-Real Transfer#Web Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] CostBench: Evaluating Multi-Turn Cost-Optimal Planning and Adaptation in Dynamic Environments for LLM Tool-Use Agents기존 LLM 에이전트 평가가 태스크 완료에만 집중하고 자원 효율성 및 동적 환경에서의 적응성을 간과하는 문제를 해결하는 것이 목표입니다.#Review#LLM Agents#Tool Use#Cost-Optimal Planning#Dynamic Environments#Benchmarking#Multi-Turn Interaction#Economic Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios기존 LLM 에이전트 벤치마크가 짧은 호라이즌과 완전 관측 가능한 태스크에 집중하여 실제 복합 태스크에 필수적인 지속적인 추론, 계획, 메모리 관리, 툴 사용 능력 을 충분히 평가하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Long-Horizon Reasoning#Benchmarking#Partially Observable#Tool Use#Memory Management#Exploration2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.#Review#Reinforcement Learning#LLM Agents#Exploration-Exploitation#Self-Imitation Learning#Intrinsic Rewards#Curriculum Learning#Policy Entropy#Tool Use2025년 9월 29일댓글 수 로딩 중
[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Entropy Regularization#Policy Optimization#Sparse Rewards#Multi-turn Environments#Exploration-Exploitation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Tree Search for LLM Agent Reinforcement Learning본 논문은 LLM 에이전트의 장기 및 멀티턴 태스크에서 발생하는 희소한 보상(sparse supervision) 문제와 과도한 롤아웃 예산(rollout budget) 소비를 해결하는 것을 목표로 합니다. 제한된 롤아웃 예산 하에서 더 세분화된 학습 시그널을 생성하여 에이전트의 학습 효율성과 성능을 향상시키고자 합니다.#Review#LLM Agents#Reinforcement Learning#Tree Search#Policy Optimization#Preference Learning#Sparse Rewards#Multi-turn Tasks2025년 9월 26일댓글 수 로딩 중
[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.#Review#Agent Environments#Agent Evaluation#LLM Agents#Asynchronous Systems#Reinforcement Learning#Tool Use#Multi-agent Collaboration#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research본 논문은 AI 에이전트가 방대한 웹 스케일 정보를 통찰력 있는 보고서로 통합해야 하는 복잡한 문제인 개방형 심층 연구(Open-Ended Deep Research, OEDR) 의 한계를 해결하는 것을 목표로 합니다.#Review#Open-Ended Deep Research#LLM Agents#Dynamic Outline#Evidence Acquisition#Hierarchical Writing#Memory Bank#State-of-the-Art#Supervised Fine-Tuning2025년 9월 17일댓글 수 로딩 중
[논문리뷰] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization이 논문은 대규모 언어 모델(LLM) 기반 에이전트가 장기 웹 탐색 작업을 수행할 때 컨텍스트 윈도우의 제한으로 인해 충분한 탐색이 불가능한 문제를 해결하고자 합니다.#Review#LLM Agents#Context Management#Summarization#ReAct#Reinforcement Learning#Web Search#Long-Horizon Reasoning2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents본 논문은 장기 시퀀스(long-horizon) LLM 에이전트 태스크에서 희소한 보상(sparse rewards) 으로 인해 발생하는 신용 할당(credit assignment) 문제 와 정책 경사(policy gradient)의 비효율적인 업데이트 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Policy Gradients#Entropy Modulation#Credit Assignment#Uncertainty#Long-Horizon Tasks#Self-Calibrating Gradient Scaling2025년 9월 12일댓글 수 로딩 중
[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interaction#Long-Horizon Decision Making#Agent Framework#Exploration-Exploitation#Progressive Scaling2025년 9월 11일댓글 수 로딩 중
[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.#Review#Agentic Reinforcement Learning#Large Language Models#LLM Agents#Sequential Decision Making#Policy Optimization#Tool Use#Dynamic Environments#Autonomous AI2025년 9월 3일댓글 수 로딩 중
[논문리뷰] How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on τ-bench본 논문은 복잡하고 동적인 다중 턴 환경(예: τ-bench )에서 대규모 언어 모델(LLM) 에이전트 가 도구를 사용하는 과정에서 발생하는 일관성 없는 추론, 도메인 정책 미준수, 장기적인 정보 추출 실패와 같은 문제들을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Tool Use#Function Calling#Input Reformulation#Dynamic Environments#τ-bench#Context Engineering#Multi-Agent Framework2025년 9월 2일댓글 수 로딩 중
[논문리뷰] MCP-Bench: Benchmarking Tool-Using LLM Agents with Complex Real-World Tasks via MCP Servers이 논문은 기존 도구 사용 벤치마크의 한계를 극복하고, LLM 에이전트 가 실제와 같은 복잡한 다단계 작업을 수행할 수 있도록 평가하는 대규모 벤치마크인 MCP-Bench 를 소개합니다. 특히 퍼지 지침 하에서의 도구 검색, 교차 도구 조정 , 정확한 매개변수 제어 , 장기 계획/추론 능력을 평가하는 데 중점을 둡니다.#Review#LLM Agents#Tool Use#Benchmarking#Model Context Protocol (MCP)#Cross-Domain Orchestration#Fuzzy Instructions#Multi-Step Tasks#Real-World Scenarios2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Training Language Model Agents to Find Vulnerabilities with CTF-Dojo본 논문은 대규모 언어 모델(LLM) 에이전트를 활용하여 사이버 보안 취약점을 자동으로 탐지하고 악용하는 것을 목표로 합니다.#Review#LLM Agents#Cybersecurity#CTF Challenges#Vulnerability Detection#Execution Environments#Docker#Automated Training#Verifiable Feedback2025년 8월 27일댓글 수 로딩 중
[논문리뷰] AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications본 논문은 대규모 언어 모델(LLM) 기반 에이전트 애플리케이션 구축 시 발생하는 유연하고 효율적인 도구 기반 에이전트-환경 상호작용의 어려움을 해결하고자 합니다. 이를 위해 AgentScope 1.0 이라는 개발자 중심 프레임워크를 제시하여, 복잡한 에이전트 애플리케이션 개발을 위한 포괄적인 지원을 목표로 합니다.#Review#LLM Agents#Agentic Applications#ReAct Paradigm#Framework#Tool Use#Multi-Agent Systems#Developer Experience#Evaluation2025년 8월 25일댓글 수 로딩 중
[논문리뷰] FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction본 논문은 LLM 에이전트의 미래 예측 능력 평가를 위한 대규모 벤치마크 부재 문제를 해결하고자 합니다. 실시간 데이터 업데이트 및 데이터 오염 방지의 어려움 때문에 기존 벤치마크는 한계가 있었으며, FutureX 는 이러한 문제를 극복하여 동적이고 실제 환경에 가까운 평가 기준을 제시하는 것을 목표로 합니다.#Review#LLM Agents#Future Prediction#Live Benchmark#Dynamic Evaluation#Data Contamination#Tool Use#Web Search#Financial Forecasting#Misinformation2025년 8월 21일댓글 수 로딩 중
[논문리뷰] ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents본 논문은 기존 HAR(Human Activity Recognition) 시스템의 낮은 일반화 능력 , 제한적인 제로샷 기능 , 해석 불가능성 이라는 세 가지 주요 한계를 해결하고자 합니다.#Review#Zero-shot HAR#LLM Agents#Time-Series Analysis#Knowledge Base#Retrieval-Augmented Generation#Multi-sensor Fusion#Interpretability2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLM Agents#Agentic Search#Asynchronous RL#Long-Horizon Planning#Tool Use#Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Memp: Exploring Agent Procedural Memory논문은 대규모 언어 모델(LLM) 기반 에이전트가 겪는 취약한 절차적 메모리 문제를 해결하고, 에이전트에게 학습 가능하고 업데이트 가능한 평생 절차적 메모리 를 부여하는 것을 목표로 합니다. 이를 통해 에이전트의 성공률을 높이고 유사 작업에 대한 실행 효율성 을 개선하고자 합니다.#Review#Procedural Memory#LLM Agents#Memory Management#Task Automation#Lifelong Learning#Experience Replay#Agent Learning2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Efficient Agents: Building Effective Agents While Reducing Cost본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 확장성과 접근성을 위협하는 급증하는 비용 문제 를 해결하고자 합니다.#Review#LLM Agents#Cost Efficiency#Performance-Cost Trade-off#Agent Frameworks#GAIA Benchmark#Optimization#Resource Management2025년 8월 7일댓글 수 로딩 중
[논문리뷰] AgentTTS: Large Language Model Agent for Test-time Compute-optimal Scaling Strategy in Complex Tasks본 논문은 기존 연구가 주로 단일 단계 태스크에 집중했던 것과 달리, 다단계 복합 태스크 에서 테스트 시점 컴퓨팅 최적 스케일링 이라는 새로운 문제를 해결하고자 합니다. 이는 총 컴퓨팅 예산 내에서 각 서브태스크에 적합한 LLM 모델을 선택하고 예산을 할당하여 전반적인 성능을 최대화 하는 것을 목표로 합니다.#Review#Large Language Models#LLM Agents#Test-time Scaling#Compute Optimization#Multi-stage Tasks#Resource Allocation#Search Efficiency2025년 8월 5일댓글 수 로딩 중
[논문리뷰] SWE-Exp: Experience-Driven Software Issue Resolution본 논문은 기존 LLM 기반 소프트웨어 문제 해결 에이전트가 과거 경험을 활용하지 못하고 각 문제를 독립적으로 처리하여 발생하는 비효율성(중복 탐색, 지식 이전 부족, 전략적 진화 부재)을 해결하는 것을 목표로 합니다.#Review#Software Issue Resolution#LLM Agents#Experience-Driven Learning#Automated Program Repair#Multi-Agent Systems#Knowledge Management#Continuous Learning2025년 8월 4일댓글 수 로딩 중
[논문리뷰] MASPRM: Multi-Agent System Process Reward ModelMulti-Agent Systems (MAS)의 추론 시 검색 과정에서 발생하는 비신뢰성 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Process Reward Model#MCTS#Inference-time Search#LLM Agents#Zero-shot Transfer#Reinforcement Learning#Compute-Aware Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] ParallelMuse: Agentic Parallel Thinking for Deep Information Seeking본 논문은 심층 정보 탐색(Deep Information Seeking, IS) 에이전트의 기존 병렬 사고 방식이 지닌 비효율성(반복적인 롤아웃)과 장기 추론 궤적 통합의 어려움(제한된 컨텍스트)을 해결하는 것을 목표로 합니다.#Review#Agentic AI#Parallel Thinking#Information Seeking#LLM Agents#Context Window Optimization#Exploration Efficiency#Reasoning Aggregation#Tool Use2025년 10월 29일댓글 수 로딩 중
[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.#Review#LLM Agents#Data Synthesis#Zone of Proximal Development (ZPD)#Complex Reasoning#Tool Use#Automated Benchmarking#Agentic AI#Rejection Sampling Fine-Tuning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] ReCode: Unify Plan and Action for Universal Granularity Control현재 LLM 기반 에이전트의 주요 한계점인 고정된 결정 세분성(granularity) 문제를 해결하고, 인간처럼 유연하게 다양한 세분성 수준에서 의사결정을 내릴 수 있는 능력을 부여하는 것입니다.#Review#LLM Agents#Decision Granularity Control#Recursive Code Generation#Hierarchical Planning#Action Unification#Program Synthesis#Data Efficiency2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents이 논문은 다중 턴(multi-turn) 대규모 언어 모델(LLM) 에이전트 훈련 시 발생하는 희소한 보상(sparse reward) 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interactions#Reward Sparsity#Information Gain#Policy Optimization#Ground-Truth Awareness#Sample Efficiency2025년 10월 17일댓글 수 로딩 중
[논문리뷰] GraphTracer: Graph-Guided Failure Tracing in LLM Agents for Robust Multi-Turn Deep Search본 논문은 다중 에이전트 LLM 시스템에서 발생하는 복잡한 다중 턴 심층 탐색 시나리오 의 실패에 대한 정확한 원인 추론(failure attribution) 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Multi-Agent Systems#Failure Tracing#Root Cause Analysis#Information Dependency Graph#Reinforcement Learning#Deep Search2025년 10월 16일댓글 수 로딩 중
[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.#Review#Peer Review#AI-Assisted Review#Large Language Models#LLM Agents#Meta-Review#Conference Submissions#Reviewer Personas#Evaluation Metrics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] A Goal Without a Plan Is Just a Wish: Efficient and Effective Global Planner Training for Long-Horizon Agent Tasks본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 긴 시간 범위의 태스크에서 글로벌 플래닝 능력 부족 으로 인해 겪는 '뇌 없는 시행착오'와 '플래닝 환각' 문제를 해결하고자 합니다. 인간의 개입 없이 효율적이고 효과적으로 플래너를 훈련하여 LLM 에이전트의 플래닝 능력을 향상시키는 것이 주된 연구 목표입니다.#Review#Long-Horizon Tasks#LLM Agents#Global Planning#Reinforcement Learning#Supervised Fine-tuning#Homologous Consensus Filtering#Executor Capability Gain Reward#Plan-and-Execute2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Training-Free Group Relative Policy Optimization본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구 통합 및 특정 프롬프트 전략에서 겪는 성능 저하 문제를 해결하는 것을 목표로 합니다. 특히, 기존 강화 학습(RL) 기반의 파라미터 업데이트 방식이 수반하는 높은 계산 비용, 데이터 희소성, 과적합 문제를 파라미터 업데이트 없이 극복하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Parameter-Free Optimization#Experiential Knowledge#Token Prior#Group Relative Policy Optimization#In-Context Learning#Cost-Effective AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.#Review#LLM Agents#Scientific Law Discovery#Benchmarking#Metaphysical Shifts#Interactive Environments#Exploration-Exploitation#Tool Use2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks본 논문은 실세계의 복잡한 장기(long-horizon) 작업 을 수행하는 AI 에이전트가 경험으로부터 학습하고 지속적으로 개선되지 못하는, 즉 '테스트-시간 정적(test-time static)' 이라는 한계를 해결하고자 합니다.#Review#LLM Agents#Continuous Learning#Self-Evolving#Memory Module#Long-Horizon Planning#Productivity Tasks#Test-Time Learning#Experience Replay2025년 10월 10일댓글 수 로딩 중
[논문리뷰] CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards본 논문은 대규모 언어 모델(LLM) 기반 에이전트들이 외부 감독 없이 에이전트 간 상호작용 을 통해 자율적으로 능력을 개선하는 자체 진화(self-evolution) 패러다임을 확립하는 것을 목표로 합니다.#Review#Multi-Agent Systems#LLM Agents#Self-Evolution#Reinforcement Learning#Interaction Rewards#LLM-as-a-Judge#Decentralized Learning2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.#Review#MLE (Machine Learning Engineering)#Automated Task Generation#Multi-Agent System#LLM Agents#Benchmark#Data Curation#Hybrid Verification#Kaggle2025년 10월 9일댓글 수 로딩 중
[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation본 논문은 자율 AI 에이전트, 특히 LLM 기반 에이전트의 배포로 인해 발생하는 안전, 보안, 프라이버시 위험을 해결하고자 합니다.#Review#LLM Agents#Safety#Formal Verification#Code Generation#Runtime Monitoring#Security#Guardrails#Policy Enforcement2025년 10월 8일댓글 수 로딩 중
[논문리뷰] BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions대규모 언어 모델(LLM)이 단일 턴 Text-to-SQL 작업에서는 뛰어난 성능을 보이지만, 실제 데이터베이스 애플리케이션에 필요한 다중 턴 상호작용 능력 의 부족 문제를 해결하는 것을 목표로 합니다.#Review#Text-to-SQL#LLM Evaluation#Multi-turn Interaction#Dynamic Environment#User Simulator#Ambiguity Resolution#LLM Agents2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails본 논문은 자기 진화(self-evolution) 능력을 가진 LLM 에이전트가 배포 후 시간이 지남에 따라 초기 정렬(alignment) 제약 조건을 포기하고 자기 이익을 추구하는 전략으로 전환하는 Alignment Tipping Process (ATP) 라는 새로운 위험 현상을 식별하고 분석합니다.#Review#LLM Agents#Alignment#Self-Evolution#Behavioral Drift#Reinforcement Learning#Multi-Agent Systems#Alignment Tipping Process2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.#Review#Multi-turn Reinforcement Learning#LLM Agents#Text-based Environments#Reward Shaping#Policy Optimization#Supervised Fine-tuning (SFT)#Generalization#Environment Complexity2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Search Self-play: Pushing the Frontier of Agent Capability without Supervision본 논문은 LLM 에이전트 훈련의 주요 병목인 대규모 인간 주석 데이터 의존성 문제를 해결하고자 합니다.#Review#LLM Agents#Self-play#Reinforcement Learning#Search Agents#Supervision-Free Training#Retrieval-Augmented Generation (RAG)#Task Generation#Curriculum Learning2025년 10월 24일댓글 수 로딩 중
[논문리뷰] AlphaQuanter: An End-to-End Tool-Orchestrated Agentic Reinforcement Learning Framework for Stock Trading본 논문은 기존 대규모 언어 모델(LLM) 기반 자동화된 주식 거래 시스템의 비효율성, 신호 불일치, 전략 학습의 비일관성 등의 한계를 해결하고자 합니다.#Review#Automated Trading#Reinforcement Learning#LLM Agents#Tool Orchestration#Financial Markets#Algorithmic Trading#Interpretable AI#ReAct2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Enterprise Deep Research: Steerable Multi-Agent Deep Research for Enterprise Analytics본 논문은 기업이 비정형 데이터를 실용적인 통찰력으로 전환하는 과정에서 직면하는 어려움, 특히 기존 자율 에이전트의 도메인 특이성, 의도 정렬, 엔터프라이즈 통합 한계를 해결하고자 합니다.#Review#Multi-Agent Systems#Deep Research#Enterprise AI#Human-in-the-Loop#Steerable AI#LLM Agents#Context Engineering#Enterprise Analytics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution본 논문은 기존 LLM 에이전트 프레임워크의 고질적인 문제인 비효율적인 순차적 처리 방식 을 해결하여, 복잡한 웹 기반 추론 작업에서 발생하는 과도한 실행 단계와 긴 지연 시간을 단축하는 것을 목표로 합니다. 특히 광범위한 도구 상호작용이 필요한 태스크에서 에이전트의 효율성과 확장성을 근본적으로 개선하고자 합니다.#Review#LLM Agents#Parallel Execution#DAG-based Planning#Tool Orchestration#Web Agents#Reasoning Framework#Efficiency2025년 10월 2일댓글 수 로딩 중
[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.#Review#LLM Agents#Context Compression#Long-horizon Tasks#Prompt Optimization#Knowledge Distillation#Memory Efficiency#Task Performance#Failure Analysis2025년 10월 2일댓글 수 로딩 중
[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications기존 LLM 에이전트 벤치마크들이 실제 환경의 복잡성(방대한 정보 처리, 다양한 리소스 활용, 동적인 사용자 상호작용)을 제대로 포착하지 못하는 문제를 해결합니다. 본 논문은 VitaBench 를 통해 현실 세계의 다양한 시뮬레이션 환경에서 에이전트의 능력을 평가하고, 이러한 격차를 해소하는 것을 목표로 합니다.#Review#LLM Agents#Benchmarking#Interactive Tasks#Real-world Applications#Tool Use#Multi-turn Conversation#Task Complexity2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.#Review#LLM Agents#External Memory#Reinforcement Learning#Memory Management#Long-Context Understanding#Tool Learning#RAG#Memory Architecture2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use본 논문은 기존의 MCP(Model Context Protocol) 벤치마크가 현실적인 워크플로우의 복잡성을 제대로 포착하지 못하고 읽기 위주 또는 제한적인 상호작용 깊이에 머물러 있다는 문제점을 해결하고자 합니다.#Review#LLM Agents#Model Context Protocol#Benchmark#Tool Use#CRUD Operations#Workflow Automation#Stress Testing#Evaluation2025년 10월 1일댓글 수 로딩 중
[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Information Seeking#Reinforcement Learning#Data Synthesis#Web Search Tools#Tool Use#Deep Research Agents2025년 10월 1일댓글 수 로딩 중
[논문리뷰] BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software본 논문은 오픈소스 소프트웨어(OSS) 프로젝트의 자동 컴파일이라는 복잡하고 노동 집약적인 문제를 해결하기 위해 LLM 에이전트 의 성능을 평가하고 개선하는 것을 목표로 합니다.#Review#LLM Agents#Open-Source Software#Compilation#Benchmarking#Software Engineering#Error Resolution#Retrieval-Augmented Generation2025년 10월 1일댓글 수 로딩 중