#Reward Design

9개의 포스트

[논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces

본 논문은 LLM 기반의 에이전트가 개별적인 도구 사용을 넘어 조율된 팀 단위로 진화함에 따라, 기존의 단일 에이전트 RL이나 고전적 MARL 방법론이 갖는 한계를 지적한다.

#Review #LLM #Multi-Agent Systems #Reinforcement Learning #Orchestration Trace #Credit Assignment #Reward Design #System Engineering

2026년 5월 5일

[논문리뷰] Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning

본 연구는 RLVR (Reinforcement Learning with Verifiable Rewards) 이 LLM (Large Language Models) 의 수학적 추론 능력을 진정으로 향상시키는지, 아니면 피상적인 휴리스틱을 강화하는지에 대한 의문을 해결하고자 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Mathematical Reasoning #Large Language Models (LLMs)#Activity Scheduling #Longest Increasing Subsequence (LIS)#Generalization Limits #Reward Design #Self-consistency

2025년 11월 9일

[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning Models

본 논문은 대규모 언어 모델(LLMs)을 대규모 추론 모델(LRMs)로 변환하는 데 강화 학습(RL) 이 기여한 최근 발전 사항을 종합적으로 조사하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Reasoning Models #LLMs #Reward Design #Policy Optimization #Verifiable Rewards #Agentic AI #Multimodal AI

2025년 9월 11일

[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.

#Review #Large Language Models #Parallel Thinking #Reinforcement Learning #Mathematical Reasoning #Progressive Curriculum #Reward Design #Exploration Scaffold

2025년 9월 10일

[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A Survey

본 논문은 복잡한 다단계 작업을 해결하는 딥 리서치 에이전트(agentic AI) 훈련을 위한 강화 학습(RL) 기반 기술 을 체계적으로 조사합니다.

#Review #Reinforcement Learning #Deep Research Systems #Agentic AI #Tool Use #Hierarchical Agents #Reward Design #Multimodal AI #RL Frameworks

2025년 9월 9일

[논문리뷰] End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

본 논문은 기존 RAG(Retrieval-Augmented Generation) 시스템이 의료 진단 분야에서 겪는 한계, 즉 수동적인 프롬프트 엔지니어링, 제한된 피드백 적응, 그리고 불투명한 추론 과정으로 인한 신뢰성 부족 문제를 해결하고자 합니다.

#Review #Agentic RAG #Medical Diagnosis #Reinforcement Learning #Traceable AI #Large Language Models #Clinical Decision Support #Out-of-Distribution Generalization #Reward Design

2025년 8월 25일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] Sotopia-RL: Reward Design for Social Intelligence

본 논문은 대규모 언어 모델(LLM)을 사회적으로 지능적인 에이전트로 훈련할 때 직면하는 부분적 관측성(Partial Observability) 과 다차원성(Multi-dimensionality) 이라는 핵심 과제를 해결하고자 합니다.

#Review #Social Intelligence #Reinforcement Learning #Reward Design #Large Language Models #Utterance-level Rewards #Multi-dimensional Rewards #Partial Observability #SOTOPIA

2025년 8월 7일

[논문리뷰] VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators

본 논문은 모방 학습의 한계점(오류 누적, 분포 변화에 대한 낮은 강건성)과 기존 강화 학습(고비용, sim-to-real 간극)의 단점을 극복하고자 합니다.

#Review #Vision-Language-Action Models #Reinforcement Learning #World Models #Fine-tuning #Embodied AI #Robotics #Reward Design #Distribution Shift

2025년 10월 2일