[논문리뷰] Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation본 논문은 Group Relative Policy Optimization (GRPO) 가 탐색 및 난이도 적응에서 겪는 어려움의 근본 원인을 규명하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Group Relative Policy Optimization#Advantage Estimation#Exploration-Exploitation#Curriculum Learning#Multi-modal LLMs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning본 논문은 LLM이 추론 과정에서 다양한 가설을 생성, 검증, 개선하는 'In-Context Exploration' 능력을 효과적으로 발휘하지 못하는 문제를 해결하고자 합니다.#Review#Large Language Models#In-Context Learning#Reinforcement Learning#Test-Time Scaling#Exploration-Exploitation#State Coverage#Reward Shaping#Chain-of-Thought2026년 2월 12일댓글 수 로딩 중
[논문리뷰] On the Entropy Dynamics in Reinforcement Fine-Tuning of Large Language Models본 논문은 LLM의 강화 학습 미세 조정(RFT) 과정에서 발생하는 엔트로피 동학에 대한 이론적인 이해를 확립하고, 탐색-활용(exploration-exploitation) 균형을 최적화하는 실용적인 전략을 개발하는 것을 목표로 합니다.#Review#Reinforcement Fine-Tuning (RFT)#Large Language Models (LLMs)#Entropy Dynamics#Exploration-Exploitation#Policy Optimization#GRPO#Entropy Control#Discriminator Score2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities본 논문은 LLM 추론에서 RLVR(Reinforcement Learning with Verifiable Rewards) 훈련 시 발생하는 엔트로피 붕괴(entropy collapse) 및 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Exploration-Exploitation#Group Relative Policy Optimization#Entropy Collapse#Generative Models#Confidence-Aware Rewards2026년 2월 8일댓글 수 로딩 중
[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#Budget Allocation#Adaptive Learning#Capability-Oriented Value Function#Exploration-Exploitation#Resource Efficiency2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Diversity or Precision? A Deep Dive into Next Token Prediction본 연구는 LLM의 사전 훈련된 토큰 출력 분포가 후속 강화 학습(RL) 을 위한 탐색 공간에 미치는 영향을 체계적으로 조사하는 것을 목표로 합니다. 특히, 다음 토큰 예측 을 확률적 결정 과정으로 재해석하여 다양성과 정밀도 간의 균형이 전체적인 추론 성능에 어떻게 영향을 미치는지 밝히고자 합니다.#Review#Next Token Prediction#Reinforcement Learning#Large Language Models#Reward Shaping#Pre-training Objective#Policy Gradient#Exploration-Exploitation2026년 1월 4일댓글 수 로딩 중
[논문리뷰] Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious RewardRLVR(Reinforcement Learning with Verifiable Rewards) 환경에서 탐색-활용 트레이드오프 를 재해석하고, 특히 클리핑(clipping), 정책 엔트로피, 허위 보상(spurious reward) 이 LLM의 추론 성능에 미치는 영향을 규명하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Clipping#Policy Entropy#Spurious Rewards#Mathematical Reasoning#RLVR2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Quantile Advantage Estimation for Entropy-Safe Reasoning대규모 언어 모델(LLMs)의 추론 능력을 강화하는 Reinforcement Learning with Verifiable Rewards (RLVR) 훈련 과정에서 발생하는 엔트로피 붕괴(entropy collapse) 및 엔트로피 폭발(entropy explosion) 문제를 해결하고, 안정적인 학습을 통해 성능을 지속적으로 향상시키는 것을 목표로 합니다.#Review#Reinforcement Learning#LLM Reasoning#Entropy Control#Advantage Estimation#Quantile Baseline#Exploration-Exploitation#RLVR2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning본 논문의 핵심 목표는 장기적인(long-horizon), 희소한 보상(sparsely-rewarded)을 가진 LLM 에이전트 태스크에서 강화 학습(RL)의 근본적인 문제인 탐색-활용 트레이드오프(exploration-exploitation trade-off) 를 효과적으로 관리하는 것입니다.#Review#Reinforcement Learning#LLM Agents#Exploration-Exploitation#Self-Imitation Learning#Intrinsic Rewards#Curriculum Learning#Policy Entropy#Tool Use2025년 9월 29일댓글 수 로딩 중
[논문리뷰] EPO: Entropy-regularized Policy Optimization for LLM Agents Reinforcement Learning본 논문은 LLM 에이전트 가 스파스한 보상 을 제공하는 다중 턴 환경 에서 겪는 '탐색-활용 캐스케이드 실패' 문제를 해결하고자 합니다.#Review#LLM Agents#Reinforcement Learning#Entropy Regularization#Policy Optimization#Sparse Rewards#Multi-turn Environments#Exploration-Exploitation2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CE-GPPO: Controlling Entropy via Gradient-Preserving Clipping Policy Optimization in Reinforcement Learning본 논문은 LLM (Large Language Model) 을 위한 강화 학습(RL) 과정에서 정책 엔트로피(policy entropy) 의 불안정성을 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#PPO#Entropy Control#Gradient Clipping#Exploration-Exploitation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning본 연구는 복잡하고 실제와 같은 장기적 의사결정 태스크를 해결하기 위해 LLM 에이전트를 훈련시키는 통일된 대화형 강화 학습(RL) 프레임워크 의 부재를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Multi-Turn Interaction#Long-Horizon Decision Making#Agent Framework#Exploration-Exploitation#Progressive Scaling2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Pass@k Training for Adaptively Balancing Exploration and Exploitation of Large Reasoning Models본 논문은 RLVR(Verifiable Rewards를 사용한 강화 학습) 환경에서 Pass@1 기반 훈련이 겪는 탐색-활용 균형 문제, 즉 정책이 보수적인 행동을 선호하여 지역 최적점에 수렴하는 문제를 해결하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Exploration-Exploitation#Reward Design#Reasoning Tasks#Pass@k#Policy Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Exploitation Is All You Need... for Exploration본 논문은 기존 RL에서 탐색을 위해 명시적인 인센티브를 부여하는 방식과 달리, 순수한 탐욕적인(exploitation-only) 목적 만으로도 탐색적 행동이 자연스럽게 나타날 수 있는지 검증하는 것을 목표로 합니다.#Review#Reinforcement Learning#Exploration-Exploitation#Meta-RL#Transformer Architecture#Emergent Behavior#Multi-Armed Bandits#Gridworlds#Pseudo-Thompson Sampling2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs본 논문은 기존 프롬프트 최적화 방법론이 텍스트 모달리티에만 국한되어 Multimodal Large Language Models (MLLMs) 의 잠재력을 완전히 활용하지 못하는 한계를 해결하고자 합니다.#Review#Multimodal AI#Prompt Optimization#MLLMs#Bayesian Optimization#Cross-modal Alignment#Prompt Engineering#Generative AI#Exploration-Exploitation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] NewtonBench: Benchmarking Generalizable Scientific Law Discovery in LLM Agents기존 과학 법칙 발견 벤치마크들이 겪는 과학적 관련성, 확장성, 암기 저항성 간의 방법론적 딜레마 를 해결하고, 정적인 함수 피팅을 넘어 복잡한 모델 시스템의 상호작용적 탐색 을 통한 실제 과학적 발견 과정을 평가하는 것을 목표로 합니다.#Review#LLM Agents#Scientific Law Discovery#Benchmarking#Metaphysical Shifts#Interactive Environments#Exploration-Exploitation#Tool Use2025년 10월 10일댓글 수 로딩 중
[논문리뷰] DeepScientist: Advancing Frontier-Pushing Scientific Findings Progressively본 논문은 기존 AI 과학자 시스템의 한계, 특히 인간이 정의한 문제에 대한 과학적으로 가치 있는 기여 부족을 해결하고자 합니다.#Review#AI Scientist#Autonomous Scientific Discovery#Bayesian Optimization#LLM-based Agents#SOTA-Surpassing#Findings Memory#Exploration-Exploitation2025년 10월 1일댓글 수 로딩 중