[논문리뷰] When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents본 논문은 기존의 LLM 에이전트 벤치마크들이 이상적인 'Happy Path' 환경만을 상정하여, 현실의 불안정한 도구 실행 및 오류 상황을 제대로 평가하지 못하는 한계를 지적한다.#Review#LLM Agents#Tool-Integrated Reasoning#Fault-Tolerance#Dynamic Replanning#Anomaly Recovery#Benchmark#DAG-based Task Generation2026년 6월 7일댓글 수 로딩 중
[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI Agents본 연구는 현재 바이모달 상호작용에 국한된 멀티모달 LLM의 한계를 넘어, 인간의 지능처럼 영상, 오디오, 이미지 모달리티 전반에 걸쳐 통합적으로 인지하고 추론하며 외부 도구를 사용하는 네이티브 옴니모달 AI 에이전트 를 개발하고 평가하는 것을 목표로 합니다.#Review#Omni-modal AI#Multi-modal Agents#Tool-Integrated Reasoning#Benchmark#Event Graph#Active Perception#Trajectory Synthesis#DPO2026년 2월 26일댓글 수 로딩 중
[논문리뷰] MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching본 논문은 Tool-Integrated Reasoning (TIR) 에서 기존 강화 학습 방법론이 획일적인 보상 할당 으로 인해 비효율적인 도구 사용 최적화를 초래하는 문제를 해결하고자 합니다.#Review#Tool-Integrated Reasoning#LLMs#Reinforcement Learning#Fine-Grained Supervision#Bipartite Matching#Credit Assignment#Advantage Estimation2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Agentic Policy Optimization via Instruction-Policy Co-Evolution본 논문은 LLM 기반 에이전트의 강화 학습(RL) 과정에서 고정되고 수동으로 설계된 명령어(instruction)가 최적의 성능을 저해한다는 문제에 주목합니다.#Review#Reinforcement Learning#Large Language Models#Instruction Optimization#Policy Co-Evolution#Agentic AI#Tool-Integrated Reasoning#Self-Reflection2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning본 논문은 기존 비전-언어 에이전트가 인간 주석 기반 지도 학습의 한계와 복잡한 시각적 추론 단계 검증의 어려움, 그리고 평가 환각 문제로 인해 연속적인 자가 발전이 어렵다는 문제를 해결하고자 합니다.#Review#Self-Evolving Agent#Vision-Language Models#Tool-Integrated Reasoning#Reinforcement Learning#Self-Correction#Multimodal AI#Generative AI2025년 11월 25일댓글 수 로딩 중
[논문리뷰] THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning대규모 언어 모델(LLM)이 수학적 추론, 특히 고정밀 수치 계산 및 형식적 기호 조작과 같은 작업에서 겪는 한계를 극복하는 것을 목표로 합니다.#Review#Mathematical Reasoning#Tool-Integrated Reasoning#Reinforcement Learning#Hierarchical Optimization#Self-Correction#Large Language Models#Code Generation2025년 9월 18일댓글 수 로딩 중
[논문리뷰] SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning본 논문은 Reinforcement Learning (RL)을 사용하여 Multi-turn Tool-Integrated Reasoning (TIR)을 수행하는 Large Language Models (LLMs)의 훈련 시 발생하는 불안정성, 특히 그래디언트 폭발 과 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Tool-Integrated Reasoning#Multi-turn Reasoning#Gradient Explosion#Training Stability#Trajectory Filtering#Zero RL2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.#Review#Chain-of-Agents#Agent Foundation Models#Multi-Agent Systems#Tool-Integrated Reasoning#Multi-agent Distillation#Agentic Reinforcement Learning#LLMs#End-to-End Learning2025년 8월 20일댓글 수 로딩 중