[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.#Review#LLM#Multi-Agent Systems#Reinforcement Learning#Orchestration Trace#Credit Assignment#Reward Design#System Engineering2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning#Large Language Models (LLMs)#Activity Scheduling#Longest Increasing Subsequence (LIS)#Generalization Limits#Reward Design#Self-consistency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Reasoning Models#LLMs#Reward Design#Policy Optimization#Verifiable Rewards#Agentic AI#Multimodal AI2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.#Review#Reinforcement Learning#Deep Research Systems#Agentic AI#Tool Use#Hierarchical Agents#Reward Design#Multimodal AI#RL Frameworks2025년 9월 9일댓글 수 로딩 중
[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.#Review#Agentic RAG#Medical Diagnosis#Reinforcement Learning#Traceable AI#Large Language Models#Clinical Decision Support#Out-of-Distribution Generalization#Reward Design2025년 8월 25일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.#Review#Social Intelligence#Reinforcement Learning#Reward Design#Large Language Models#Utterance-level Rewards#Multi-dimensional Rewards#Partial Observability#SOTOPIA2025년 8월 7일댓글 수 로딩 중
[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.#Review#Vision-Language-Action Models#Reinforcement Learning#World Models#Fine-tuning#Embodied AI#Robotics#Reward Design#Distribution Shift2025년 10월 2일댓글 수 로딩 중