[논문리뷰] EvoDS: Self-Evolving Autonomous Data Science Agent with Skill Learning and Context Management기존의 데이터 과학 에이전트는 고정된 작업 워크플로우와 제한적인 Action space에 의존하여, 경험을 체계적으로 축적하거나 재사용하는 능력이 부족합니다.#Review#Data Science Agent#Multi-Agent System#Self-Evolving#Agent Skill#Agentic Reinforcement Learning2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning본 논문은 에이전트의 효율적인 기술 습득과 OOD 환경에서의 범용성 확보를 위해 기술의 종류에 따른 차별화된 처리(Differentiated Treatment)가 필요함을 제기한다.#Review#Agentic Reinforcement Learning#Skill Internalization#Out-of-Distribution Generalization#Difficulty-Aware Routing#Privileged Distillation#Shortcut Learning2026년 5월 28일댓글 수 로딩 중
[논문리뷰] EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL본 논문은 Large Language Models (LLMs)에 tool-use capabilities를 부여하는 Agentic Reinforcement Learning (Agentic RL)이 겪는 두 가지 주요 bottleneck, 즉 scalable하고 robust한 executable environments의 부족과 implicit human reasoning을 포착하는 현실적인 training data의 희소성을…#Review#Agentic Reinforcement Learning#Tool-Use Agents#Environment Synthesis#Trajectory Generation#Dependency Graph#LLM Post-training2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Self-Distilled Agentic Reinforcement Learning본 연구는 다중 턴 에이전트 환경에서 기존 OPSD가 겪는 불안정성과 성능 저하 문제를 해결하고자 합니다. 기존 방식은 에이전트가 교사 지원 궤적에서 벗어날 때 토큰 단위의 지도가 신뢰성을 잃고, 교사의 privileged context에 대한 의존이 비대칭적인 결과를 초래하여 학습을 방해한다는 점을 지적합니다 .#Review#Agentic Reinforcement Learning#On-Policy Self-Distillation#Token-Level Gating#Privileged Guidance#Multi-turn Agents#GRPO2026년 5월 14일댓글 수 로딩 중
[논문리뷰] Learning Agentic Policy from Action Guidance본 논문은 Agentic RL에서 기반 모델의 탐색 능력이 부족할 때 발생하는 학습 정체 문제를 해결하고자 합니다. 기존의 Agentic RL은 보상 상태가 모델의 'In-capability region'을 벗어난 경우, 유효한 학습 신호를 얻지 못해 훈련이 중단되는 구조적 한계를 가집니다 .#Review#Agentic Reinforcement Learning#Action Guidance#Reachability Barrier#Minimal Intervention#Mixed-Policy Optimization2026년 5월 13일댓글 수 로딩 중
[논문리뷰] AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning본 논문은 Agentic RL에서 발생하는 sparse, outcome-level reward 문제를 해결하기 위해 응답 수준에서의 정교한 Credit Assignment 프레임워크를 제안합니다.#Review#Agentic Reinforcement Learning#Credit Assignment#Adaptive Entropy Modulation#Large Language Models#Exploration-Exploitation Trade-off#Surprisal#Policy Optimization2026년 5월 10일댓글 수 로딩 중
[논문리뷰] T^2PO: Uncertainty-Guided Exploration Control for Stable Multi-Turn Agentic Reinforcement Learning본 논문은 다회차 Agentic RL 환경에서 빈번하게 발생하는 Training Collapse 현상을 해결하고자 합니다.#Review#Agentic Reinforcement Learning#Multi-Turn Reasoning#Uncertainty-Guided Exploration#Token-Level Thinking Intervention#Turn-Level Dynamical Sampling#Training Stability2026년 5월 4일댓글 수 로딩 중
[논문리뷰] CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation본 논문은 GPU 커널 최적화의 고도로 전문화된 특성과 torch.compile 과 같은 기존 컴파일러 기반 시스템 대비 LLM의 경쟁력 부족 문제를 해결하는 것을 목표로 합니다.#Review#CUDA Kernel Generation#Agentic Reinforcement Learning#Large Language Models (LLMs)#GPU Optimization#Performance Tuning#Deep Learning Infrastructure#Program Synthesis2026년 3월 1일댓글 수 로딩 중
[논문리뷰] ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning에이전트 강화 학습(ARL)의 심각한 훈련 불안정성 문제, 특히 훈련 붕괴 현상을 해결하는 것이 목표입니다. 이 불안정성은 대규모 환경 및 장기 상호작용에서 ARL의 확장성을 제한하며, 체계적인 알고리즘 설계 탐색을 어렵게 만듭니다.#Review#Agentic Reinforcement Learning#LLM#Policy Optimization#Training Stability#Importance Sampling Clipping#Advantage Design#Dynamic Filtering#ARLArena#SAMPO2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Exploring Reasoning Reward Model for Agents기존 에이전트 RL(Agentic Reinforcement Learning) 방법론이 최종 결과 기반의 희소한 보상에 의존하여 중간 추론 과정의 품질을 제대로 반영하지 못하는 문제를 해결합니다.#Review#Agentic Reinforcement Learning#Reward Modeling#Reasoning-aware Feedback#Large Language Models (LLMs)#Multi-modal Agents#Fine-tuning#Critique Generation2026년 1월 29일댓글 수 로딩 중
[논문리뷰] VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning이 논문은 기존 Tool-integrated Visual Reasoning (TiVR) 패러다임이 부정확하거나 오류 있는 도구 출력에 취약하여 환각적인 추론으로 이어지는 문제를 해결하고자 합니다.#Review#Tool-integrated Visual Reasoning#Referring Grounded Reasoning#Agentic Reinforcement Learning#Self-Correction#Large Vision-Language Models#Chain-of-Thought#Tool Refinement2025년 12월 8일댓글 수 로딩 중
[논문리뷰] VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use논문은 LLM의 독립적인 추론과 상호작용적 에이전트 지능 사이의 격차를 해소하고자 합니다.#Review#Agentic Reinforcement Learning#Tool Use#Large Language Models#Reinforcement Learning from Verifiable Rewards (RLVR)#Asynchronous Execution#Multi-modal AI#Framework2025년 9월 3일댓글 수 로딩 중
[논문리뷰] The Landscape of Agentic Reinforcement Learning for LLMs: A Survey본 설문조사는 LLM(Large Language Models)을 수동적인 시퀀스 생성기에서 자율적인 의사 결정 에이전트로 전환하는 Agentic RL(Agentic Reinforcement Learning) 패러다임의 등장을 탐구합니다.#Review#Agentic Reinforcement Learning#Large Language Models#LLM Agents#Sequential Decision Making#Policy Optimization#Tool Use#Dynamic Environments#Autonomous AI2025년 9월 3일댓글 수 로딩 중
[논문리뷰] rStar2-Agent: Agentic Reasoning Technical Report본 논문은 대규모 언어 모델(LLM)이 복잡한 수학 추론에서 '더 길게 생각하는' 것을 넘어 '더 스마트하게 생각하도록' 돕는 것을 목표로 합니다. 구체적으로, 에이전트형 강화 학습(RL)을 통해 Python 코딩 도구 를 자율적으로 활용하고 환경 피드백으로부터 학습하여 최첨단 성능을 달성하고자 합니다.#Review#Agentic Reinforcement Learning#Math Reasoning#Code Interpreter#Tool Use#GRPO-RoC#LLM Training Efficiency#Self-Reflection2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL본 논문은 기존의 다중 에이전트 시스템(MAS)과 도구 통합 추론(TIR) 패러다임이 가진 한계를 극복하고, 단일 LLM(Large Language Model) 내에서 다중 에이전트 협업 능력을 내재화하여 복잡한 문제 해결을 위한 종단 간(End-to-End) 에이전트 파운데이션 모델(AFM)을 구축하는 것을 목표로 합니다.#Review#Chain-of-Agents#Agent Foundation Models#Multi-Agent Systems#Tool-Integrated Reasoning#Multi-agent Distillation#Agentic Reinforcement Learning#LLMs#End-to-End Learning2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Agentic Entropy-Balanced Policy Optimization본 논문은 Agentic Reinforcement Learning(RL)에서 멀티턴, 장기적 도구 사용 능력 학습 시 발생하는 엔트로피 관련 문제, 특히 롤아웃 단계의 과도한 분기(High-entropy Rollout Collapse) 와 정책 업데이트 단계의 기울기 소실(High-entropy Token Gradient Clipping) 을 해결하여 안정적이고 확장 가능한 웹 에이전트 훈련을 목표로 합니다.#Review#Agentic Reinforcement Learning#Web Agents#Tool Learning#Entropy Balancing#Policy Optimization#Rollout Strategy#Large Language Models2025년 10월 17일댓글 수 로딩 중
[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.#Review#Agentic Reinforcement Learning#Travel Planning#Large Language Models#Sandbox Environment#Hierarchical Reward Modeling#Experience Replay#Autonomous Agents2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.#Review#Agentic Reinforcement Learning#LLM Safety#Tool Use#Search Models#Jailbreaking#Instruction Tuning#Vulnerability2025년 10월 21일댓글 수 로딩 중