#Reward Shaping

24개의 포스트

[논문리뷰] AtlasVA: Self-Evolving Visual Skill Memory for Teacher-Free VLM Agents

본 연구는 기존 VLM 에이전트가 긴 호흡의 공간적 과업(long-horizon spatial tasks)을 수행할 때 발생하는 '공간적 맹목(spatial blindness)'과 '모달리티 불일치(modality mismatch)' 문제를 해결합니다.

#Review #VLM Agents #Visual Skill Memory #Reinforcement Learning #Reward Shaping #Spatial Reasoning #Self-Evolving

2026년 5월 18일

[논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

본 논문은 GRPO 기반의 LLM RL 학습 과정에서 발생하는 극단적인 샘플(Extreme Hard/Easy samples)의 탐색 및 활용 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Large Language Models #Reinforcement Learning #Exploration-Exploitation Trade-Off #Perplexity #Reward Shaping

2026년 4월 19일

[논문리뷰] A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Large language model (LLM)-based agents는 디지털 환경에서 강력한 자율 제어기로 부상했지만, 특히 웹 내비게이션과 같이 동적인 콘텐츠와 긴 액션 시퀀스를 요구하는 복잡한 task에서 long-horizon planning 능력의 약점을 드러낸다.

#Review #LLM Agents #Subgoals #Reinforcement Learning #Web Navigation #Long-Horizon Planning #Reward Shaping #Curriculum Learning

2026년 3월 22일

[논문리뷰] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

본 논문은 기존의 인간 감독 및 데이터셋 구축에 의존하는 LLM 도구 학습 의 확장성 문제를 해결하고자 합니다. 사전 데이터 없이 약한 LLM이 스스로 도구 사용 능력을 학습하여 범용 도구 호출 에이전트 로 발전할 수 있는 자기 진화 프레임워크 Tool-R0 을 제안합니다.

#Review #Large Language Models (LLMs)#Self-Play Reinforcement Learning (RL)#Tool-Learning #Zero-Data Learning #LLM Agents #Curriculum Learning #Reward Shaping #Co-evolution

2026년 3월 2일

[논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization

본 논문은 대규모 언어 모델(LLMs)의 Chain-of-Thought (CoT) 추론에서 발생하는 높은 계산 오버헤드를 줄이기 위해 효율적인 추론 메커니즘 을 체계적으로 조사하는 것을 목표로 합니다.

#Review #Efficient Reasoning #Large Language Models #Reinforcement Learning #Reward Shaping #Chain-of-Thought #RL Optimization #Length Adaptation

2026년 2월 24일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] SSL: Sweet Spot Learning for Differentiated Guidance in Agentic Optimization

본 논문은 검증 가능한 보상 기반 강화 학습(RLVR)에서 이진 보상(binary rewards) 의 한계(최적화 모호성, 학습 비효율성, 정책 취약성)를 해결하고자 합니다.

#Review #Reinforcement Learning #Reward Shaping #Agent Optimization #GUI Automation #Complex Reasoning #Sample Efficiency #Tiered Rewards

2026년 2월 1일

[논문리뷰] Continual GUI Agents

본 연구는 GUI(Graphical User Interface) 에이전트가 새로운 도메인이나 해상도 변화와 같은 동적인 디지털 환경(데이터 분포의 변화)에서 성능 저하 없이 지속적으로 학습(continual learning) 할 수 있도록 하는 새로운 태스크인 Continual GUI Agents 를 정의합니다.

#Review #Continual Learning #GUI Agents #Reinforcement Learning #Grounding #Domain Adaptation #Resolution Adaptation #Reward Shaping #Human-Computer Interaction

2026년 2월 1일

[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction

본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.

#Review #Next Token Prediction #Reinforcement Learning #Large Language Models #Reward Shaping #Pre-training Objective #Policy Gradient #Exploration-Exploitation

2026년 1월 4일

[논문리뷰] SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

본 논문은 복잡한 GUI 태스크에서 자율 에이전트 개발을 위한 에이전트 강화 학습( Agentic RL )의 주요 병목인 태스크 완료 검증의 비효율성과 신뢰성 문제 를 해결하고자 합니다.

#Review #Agentic RL #Self-Verifying Agents #GUI Automation #Evidence Curation #LLM-as-a-Judge #Reward Shaping #AndroidLab

2025년 12월 29일

[논문리뷰] Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

본 논문은 LLM의 강화 학습(RL) 탐색 메커니즘이 모델의 실제 학습 방식과 근본적으로 일치하지 않는다는 문제를 제기합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration Strategy #Gradient-Guided #Reward Shaping #Reasoning #PPO

2025년 12월 17일

[논문리뷰] MOA: Multi-Objective Alignment for Role-Playing Agents

본 논문은 역할극 에이전트(RPA)가 다중 턴 지시 따르기, 도메인 지식 습득, 일관된 언어 스타일 유지 등 여러 상충하는 기술들을 동시에 습득해야 하는 문제를 해결하고자 합니다.

#Review #Role-Playing Agents #Multi-Objective Reinforcement Learning #LLM Alignment #Persona Consistency #Dialogue Generation #Reward Shaping #Off-Policy Guidance

2025년 12월 11일

[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 강화 학습(RL)에서 발생하는 심각한 보상 희소성 문제 를 해결하고, 외부 전문가 시연이나 수동적인 보상 엔지니어링 없이 높은 훈련 효율성 과 일반화 능력 을 달성하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Vision-Language-Action Models #Reward Shaping #World Models #Self-Referential Learning #Robotics #Trajectory Optimization

2025년 11월 20일

[논문리뷰] Agent-R1: Training Powerful LLM Agents with End-to-End Reinforcement Learning

본 논문은 대규모 언어 모델(LLMs)을 복잡한 다중 턴(multi-turn) 상호작용 태스크를 수행하는 에이전트로 훈련시키기 위한 강화 학습(RL)의 효과적인 적용 방안 을 모색합니다.

#Review #LLM Agents #Reinforcement Learning #Markov Decision Process #Tool Use #Multi-turn Interaction #Policy Optimization #Reward Shaping #Agent Framework

2025년 11월 18일

[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLMs #Pipeline Parallelism #Reasoning #Reward Shaping #Agentic AI

2025년 11월 16일

[논문리뷰] Rubric-Based Benchmarking and Reinforcement Learning for Advancing LLM Instruction Following

본 논문은 복잡하고 다중 턴, 시스템 프롬프트 기반의 지시를 따르는 LLM의 능력을 향상시키는 것을 목표로 합니다. 특히, 이러한 고급 Instruction Following (IF) 기능을 평가하고 훈련하기 위한 고품질의 인간 주석 벤치마크와 신뢰할 수 있고 해석 가능한 보상 신호가 부족하다는 문제를 해결하고자 합니다.

#Review #LLM #Instruction Following #Reinforcement Learning #Rubric-based Evaluation #Benchmarking #Reward Shaping #Rubric Verifier #AdvancedIF

2025년 11월 13일

[논문리뷰] OpenSIR: Open-Ended Self-Improving Reasoner

논문은 LLM 추론 능력 향상이 인간 주석 데이터 의존성으로 확장성과 성능에 한계가 있음을 지적하며, 이 문제를 해결하고자 합니다.

#Review #Open-Ended Learning #Self-Play #Reinforcement Learning #Large Language Models #Mathematical Reasoning #Problem Generation #Curriculum Learning #Reward Shaping

2025년 11월 9일

[논문리뷰] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning

본 논문은 LLM 기반 대화형 추천 시스템(CRS)이 직면한 카탈로그 외부 항목 생성 , 부적절한 출력 형식 , 그리고 추천 리스트 끝부분의 낮은 랭킹 품질 문제를 해결하고자 합니다.

#Review #Conversational Recommender Systems #Large Language Models #Reinforcement Learning #Group Relative Policy Optimization #Rank-based Learning #Supervised Fine-tuning #Reward Shaping

2025년 11월 9일

[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs

이 논문은 비디오 시간적 접지(temporal grounding) 작업에서 멀티모달 대규모 언어 모델(MLLMs) 의 효율성을 개선하는 것을 목표로 합니다. 기존 강화 학습( RL ) 방법론, 특히 GRPO 가 큰 시간 검색 공간에서 비효율적인 탐색과 불안정한 정책 업데이트를 겪는 문제를 해결하고자 합니다.

#Review #Video LLMs #Temporal Grounding #Reinforcement Learning #Off-policy Learning #Reward Shaping #Chain-of-Thought #Multimodal LLMs

2025년 9월 23일

[논문리뷰] Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

대규모 언어 모델(LLMs)이 다단계 추론 문제, 특히 정답 궤적이 희박한 어려운 태스크에서 겪는 한계를 극복하는 것을 목표로 합니다.

#Review #Supervised Reinforcement Learning #LLMs #Multi-step Reasoning #Reward Shaping #Expert Trajectories #Math Reasoning #Agentic AI

2025년 10월 31일

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일

[논문리뷰] Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs

본 연구는 복잡하고 개방형의 장기적 정보 검색 및 합성 태스크에서 기존 오픈소스 DeepResearch 에이전트의 성능 한계를 극복하는 것을 목표로 합니다.

#Review #DeepResearch Agents #Tool-integrated Reasoning #Reinforcement Learning #Information Retrieval #Information Synthesis #Multi-agent Self-play #Reward Shaping #LLM

2025년 10월 8일

[논문리뷰] A Practitioner's Guide to Multi-turn Agentic Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)을 에이전트로 훈련하기 위한 다중 턴(multi-turn) 강화 학습(RL)의 파편화된 접근 방식을 해결하고, 환경, 보상, 정책 세 가지 핵심 축을 중심으로 실용적인 훈련 레시피 를 도출하는 것을 목표로 합니다.

#Review #Multi-turn Reinforcement Learning #LLM Agents #Text-based Environments #Reward Shaping #Policy Optimization #Supervised Fine-tuning (SFT)#Generalization #Environment Complexity

2025년 10월 6일

[논문리뷰] Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

본 논문은 Large Language Model (LLM)이 모든 정답을 동일하게 중요하게 취급하는 기존의 Verifiable Rewards (RLVR) 방식의 한계를 극복하고, 인간이 정의한 가치(value)에 따라 LLM의 최적화를 직접적으로 정렬하는 방법론을 제안합니다.

#Review #Reinforcement Learning #LLM Alignment #Human Values #Reward Shaping #Value-Weighted Reward #Termination Policy #RLVR

2025년 10월 24일