#Online Reinforcement Learning

4개의 포스트

[논문리뷰] Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

본 논문은 VLA의 online RL fine-tuning이 에피소드당 단일 binary 성공/실패 신호만 제공하는 sparse outcome 문제를 지적하며, viability와 efficiency 신호를 분리해 transition 단위 학습 가중치를 생성하는 Hierarchical Advantage-Weighted Behavior Cloning(HABC)을 제안합니다.

#Review #Vision-Language-Action Models #Online Reinforcement Learning #Robot Manipulation #Hierarchical Advantage Weighting #Sparse Episode Outcomes #Dual-Head Critic #Intervention-Aware Credit Assignment

2026년 6월 15일

[논문리뷰] OpenWebRL: Demystifying Online Multi-turn Reinforcement Learning for Visual Web Agents

본 연구는 시각적 웹 에이전트(visual web agents)의 학습을 위해 사용되는 기존의 supervised post-training 방식이 가진 확장성 한계와 고비용 데이터를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Visual Web Agents #Multimodal Multi-turn GRPO #Live Website Interaction #Scalable Training Framework

2026년 6월 1일

[논문리뷰] Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

본 논문은 온라인 RL 기반 LLM 학습 시 발생하는 탐색-활용 불균형(imbalanced exploration–exploitation trade-off) 문제를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Information Bottleneck #Tree-based Policy Optimization #Exploration-Exploitation Balance #LLM Reasoning #IB-Score

2026년 5월 27일

[논문리뷰] SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training

본 논문은 기존의 T2I 모델 안전성 확보 방식들이 가진 데이터 의존성과 모델 성능 저하 문제를 해결하고자 합니다.

#Review #Diffusion Models #Safety Alignment #Online Reinforcement Learning #GRPO #CLIP #Concept Erasure

2026년 5월 18일