#Agentic Reinforcement Learning

18개의 포스트

[논문리뷰] EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management

기존의 데이터 과학 에이전트는 고정된 작업 워크플로우와 제한적인 Action space에 의존하여, 경험을 체계적으로 축적하거나 재사용하는 능력이 부족합니다.

#Review #Data Science Agent #Multi-Agent System #Self-Evolving #Agent Skill #Agentic Reinforcement Learning

2026년 6월 4일

[논문리뷰] Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

본 논문은 에이전트의 효율적인 기술 습득과 OOD 환경에서의 범용성 확보를 위해 기술의 종류에 따른 차별화된 처리(Differentiated Treatment)가 필요함을 제기한다.

#Review #Agentic Reinforcement Learning #Skill Internalization #Out-of-Distribution Generalization #Difficulty-Aware Routing #Privileged Distillation #Shortcut Learning

2026년 5월 28일

[논문리뷰] EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL

본 논문은 Large Language Models (LLMs)에 tool-use capabilities를 부여하는 Agentic Reinforcement Learning (Agentic RL)이 겪는 두 가지 주요 bottleneck, 즉 scalable하고 robust한 executable environments의 부족과 implicit human reasoning을 포착하는 현실적인 training data의 희소성을…

#Review #Agentic Reinforcement Learning #Tool-Use Agents #Environment Synthesis #Trajectory Generation #Dependency Graph #LLM Post-training

2026년 5월 19일

[논문리뷰] Self-Distilled Agentic Reinforcement Learning

본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Self-Distillation #Token-Level Gating #Privileged Guidance #Multi-turn Agents #GRPO

2026년 5월 14일

[논문리뷰] Learning Agentic Policy from Action Guidance

본 논문은 Agentic RL에서 기반 모델의 탐색 능력이 부족할 때 발생하는 학습 정체 문제를 해결하고자 합니다. 기존의 Agentic RL은 보상 상태가 모델의 'In-capability region'을 벗어난 경우, 유효한 학습 신호를 얻지 못해 훈련이 중단되는 구조적 한계를 가집니다 .

#Review #Agentic Reinforcement Learning #Action Guidance #Reachability Barrier #Minimal Intervention #Mixed-Policy Optimization

2026년 5월 13일

[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.

#Review #Agentic Reinforcement Learning #Credit Assignment #Adaptive Entropy Modulation #Large Language Models #Exploration-Exploitation Trade-off #Surprisal #Policy Optimization

2026년 5월 10일

[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning

본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #Multi-Turn Reasoning #Uncertainty-Guided Exploration #Token-Level Thinking Intervention #Turn-Level Dynamical Sampling #Training Stability

2026년 5월 4일

[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.

#Review #CUDA Kernel Generation #Agentic Reinforcement Learning #Large Language Models (LLMs)#GPU Optimization #Performance Tuning #Deep Learning Infrastructure #Program Synthesis

2026년 3월 1일

[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.

#Review #Agentic Reinforcement Learning #LLM #Policy Optimization #Training Stability #Importance Sampling Clipping #Advantage Design #Dynamic Filtering #ARLArena #SAMPO

2026년 2월 25일

[논문리뷰] Exploring Reasoning Reward Model for Agents

기존 에이전트 RL(Agentic Reinforcement Learning) 방법론이 최종 결과 기반의 희소한 보상에 의존하여 중간 추론 과정의 품질을 제대로 반영하지 못하는 문제를 해결합니다.

#Review #Agentic Reinforcement Learning #Reward Modeling #Reasoning-aware Feedback #Large Language Models (LLMs)#Multi-modal Agents #Fine-tuning #Critique Generation

2026년 1월 29일

[논문리뷰] VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning

이 논문은 기존 Tool-integrated Visual Reasoning (TiVR) 패러다임이 부정확하거나 오류 있는 도구 출력에 취약하여 환각적인 추론으로 이어지는 문제를 해결하고자 합니다.

#Review #Tool-integrated Visual Reasoning #Referring Grounded Reasoning #Agentic Reinforcement Learning #Self-Correction #Large Vision-Language Models #Chain-of-Thought #Tool Refinement

2025년 12월 8일

[논문리뷰] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

논문은 LLM의 독립적인 추론과 상호작용적 에이전트 지능 사이의 격차를 해소하고자 합니다.

#Review #Agentic Reinforcement Learning #Tool Use #Large Language Models #Reinforcement Learning from Verifiable Rewards (RLVR)#Asynchronous Execution #Multi-modal AI #Framework

2025년 9월 3일

[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.

#Review #Agentic Reinforcement Learning #Large Language Models #LLM Agents #Sequential Decision Making #Policy Optimization #Tool Use #Dynamic Environments #Autonomous AI

2025년 9월 3일

[논문리뷰] rStar2-Agent: Agentic Reasoning Technical Report

본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 추론에서 '더 길게 생각하는' 것을 넘어 '더 스마트하게 생각하도록' 돕는 것을 목표로 합니다. 구체적으로, 에이전트형 강화 학습(RL)을 통해 Python 코딩 도구 를 자율적으로 활용하고 환경 피드백으로부터 학습하여 최첨단 성능을 달성하고자 합니다.

#Review #Agentic Reinforcement Learning #Math Reasoning #Code Interpreter #Tool Use #GRPO-RoC #LLM Training Efficiency #Self-Reflection

2025년 8월 29일

[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL

본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.

#Review #Chain-of-Agents #Agent Foundation Models #Multi-Agent Systems #Tool-Integrated Reasoning #Multi-agent Distillation #Agentic Reinforcement Learning #LLMs #End-to-End Learning

2025년 8월 20일

[논문리뷰] Agentic Entropy-Balanced Policy Optimization

본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.

#Review #Agentic Reinforcement Learning #Web Agents #Tool Learning #Entropy Balancing #Policy Optimization #Rollout Strategy #Large Language Models

2025년 10월 17일

[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.

#Review #Agentic Reinforcement Learning #Travel Planning #Large Language Models #Sandbox Environment #Hierarchical Reward Modeling #Experience Replay #Autonomous Agents

2025년 10월 9일

[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe

본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.

#Review #Agentic Reinforcement Learning #LLM Safety #Tool Use #Search Models #Jailbreaking #Instruction Tuning #Vulnerability

2025년 10월 21일