#Exploration

13개의 포스트

[논문리뷰] Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

arXiv에 게시된 'Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #Large Language Models #Natural Language Feedback #Exploration #Group-Level Feedback #Self-Refinement #Sample Efficiency

2026년 3월 11일

[논문리뷰] BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

arXiv에 게시된 'BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Reinforcement Learning #Trust Region #Policy Optimization #Ratio Clipping #f-divergence #Entropy Regularization #Exploration #BandPO

2026년 3월 8일

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

arXiv에 게시된 'Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일

[논문리뷰] DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Donghao Zhou이 arXiv에 게시한 'DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models (LLM)#Reinforcement Learning with Verifiers (RLVR)#Exploration #Diversity Regularization #Dual-Scale #Reasoning #Policy Optimization

2026년 2월 23일

[논문리뷰] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs

arXiv에 게시된 'Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs' 논문에 대한 자세한 리뷰입니다.

#Review #Latent Variable Models #Variational Autoencoder (VAE)#Reinforcement Learning (RL)#Exploration #Large Language Models (LLMs)#Vision-Language Models (VLMs)#Controllable Generation #Reasoning Strategies

2025년 12월 22일

[논문리뷰] Meta-RL Induces Exploration in Language Agents

Maria Brbic이 arXiv에 게시한 'Meta-RL Induces Exploration in Language Agents' 논문에 대한 자세한 리뷰입니다.

#Review #Meta-RL #LLM Agents #Exploration #Reinforcement Learning #Policy Adaptation #In-context Learning #Self-reflection #Multi-episode tasks

2025년 12월 21일

[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

Wieland Brendel이 arXiv에 게시한 'MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning (RL)#Mathematical Reasoning #Benchmark #Large Language Models (LLMs)#Exploration #Boundary Expansion #MATH-Beyond

2025년 10월 16일

[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning

Zheli Liu이 arXiv에 게시한 'DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning' 논문에 대한 자세한 리뷰입니다.

#Review #Preference Learning #LLMs #User Feedback #Dissatisfaction Signals #DPO #Iterative Training #RLHF #Exploration

2025년 10월 8일

[논문리뷰] BroRL: Scaling Reinforcement Learning via Broadened Exploration

arXiv에 게시된 'BroRL: Scaling Reinforcement Learning via Broadened Exploration' 논문에 대한 자세한 리뷰입니다.

#Review #Reinforcement Learning #LLMs #Scaling Laws #Exploration #Rollout Size #Verifiable Rewards #PPO #Mass Balance Equation

2025년 10월 2일

[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

Zeyu Qin이 arXiv에 게시한 'UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Long-Horizon Reasoning #Benchmarking #Partially Observable #Tool Use #Memory Management #Exploration

2025년 9월 29일

[논문리뷰] Inpainting-Guided Policy Optimization for Diffusion Large Language Models

Chenyu Wang이 arXiv에 게시한 'Inpainting-Guided Policy Optimization for Diffusion Large Language Models' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion LLMs #Reinforcement Learning #Inpainting #Policy Optimization #Exploration #Mathematical Reasoning #GRPO

2025년 9월 15일

[논문리뷰] AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

Yong Li이 arXiv에 게시한 'AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Fine-tuning #Reinforcement Learning #Meta-learning #Adaptive Control #Imitation Learning #Exploration #Reasoning

2025년 8월 14일

[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Kechi Zhang이 arXiv에 게시한 'RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Reinforcement Learning #Capability Collapse #Hybrid Policy Optimization #Multiple Importance Sampling #Exploration #Math Reasoning #Out-of-Distribution

2025년 8월 7일