#Exploration-Exploitation

17개의 포스트

[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Group Relative Policy Optimization #Advantage Estimation #Exploration-Exploitation #Curriculum Learning #Multi-modal LLMs

2026년 2월 12일

[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.

#Review #Large Language Models #In-Context Learning #Reinforcement Learning #Test-Time Scaling #Exploration-Exploitation #State Coverage #Reward Shaping #Chain-of-Thought

2026년 2월 12일

[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models

본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.

#Review #Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics #Exploration-Exploitation #Policy Optimization #GRPO #Entropy Control #Discriminator Score

2026년 2월 8일

[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities

본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Exploration-Exploitation #Group Relative Policy Optimization #Entropy Collapse #Generative Models #Confidence-Aware Rewards

2026년 2월 8일

[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs

논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLMs #Budget Allocation #Adaptive Learning #Capability-Oriented Value Function #Exploration-Exploitation #Resource Efficiency

2026년 2월 3일

[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction

본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.

#Review #Next Token Prediction #Reinforcement Learning #Large Language Models #Reward Shaping #Pre-training Objective #Policy Gradient #Exploration-Exploitation

2026년 1월 4일

[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

RLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Clipping #Policy Entropy #Spurious Rewards #Mathematical Reasoning #RLVR

2025년 12월 18일

[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning

대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Entropy Control #Advantage Estimation #Quantile Baseline #Exploration-Exploitation #RLVR

2025년 9월 29일

[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.

#Review #Reinforcement Learning #LLM Agents #Exploration-Exploitation #Self-Imitation Learning #Intrinsic Rewards #Curriculum Learning #Policy Entropy #Tool Use

2025년 9월 29일

[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning

본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Entropy Regularization #Policy Optimization #Sparse Rewards #Multi-turn Environments #Exploration-Exploitation

2025년 9월 29일

[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning

본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Policy Optimization #PPO #Entropy Control #Gradient Clipping #Exploration-Exploitation

2025년 9월 26일

[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning

본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Multi-Turn Interaction #Long-Horizon Decision Making #Agent Framework #Exploration-Exploitation #Progressive Scaling

2025년 9월 11일

[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models

본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #Exploration-Exploitation #Reward Design #Reasoning Tasks #Pass@k #Policy Optimization

2025년 8월 15일

[논문리뷰] Exploitation Is All You Need... for Exploration

본 논문은 기존 RL에서 탐색을 위해 명시적인 인센티브를 부여하는 방식과 달리, 순수한 탐욕적인(exploitation-only) 목적 만으로도 탐색적 행동이 자연스럽게 나타날 수 있는지 검증하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Exploration-Exploitation #Meta-RL #Transformer Architecture #Emergent Behavior #Multi-Armed Bandits #Gridworlds #Pseudo-Thompson Sampling

2025년 8월 5일

[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 Multimodal Large Language Models (MLLMs) 의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다.

#Review #Multimodal AI #Prompt Optimization #MLLMs #Bayesian Optimization #Cross-modal Alignment #Prompt Engineering #Generative AI #Exploration-Exploitation

2025년 10월 13일

[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents

기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.

#Review #LLM Agents #Scientific Law Discovery #Benchmarking #Metaphysical Shifts #Interactive Environments #Exploration-Exploitation #Tool Use

2025년 10월 10일

[논문리뷰] DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively

본 논문은 기존 AI 과학자 시스템의 한계, 특히 인간이 정의한 문제에 대한 과학적으로 가치 있는 기여 부족을 해결하고자 합니다.

#Review #AI Scientist #Autonomous Scientific Discovery #Bayesian Optimization #LLM-based Agents #SOTA-Surpassing #Findings Memory #Exploration-Exploitation

2025년 10월 1일