#Online RL

5개의 포스트

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward Process

본 논문은 확산 모델의 온라인 강화 학습(RL) 적용 시 발생하는 고유한 문제점, 즉 다루기 어려운 가능도(likelihoods)와 역방향 샘플링 과정의 제약사항을 해결하는 것을 목표로 합니다.

#Review #Diffusion Models #Reinforcement Learning #Online RL #Flow Matching #Forward Process #CFG-free #Image Generation #Negative-Aware FineTuning

2025년 9월 23일

[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.

#Review #GUI Automation #Reinforcement Learning #Semi-online RL #Offline RL #Online RL #Patch Module #Multi-turn Interaction #Large Language Models

2025년 9월 16일

[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.

#Review #Multi-objective Reinforcement Learning #LLM Alignment #Dynamic Reward Weighting #Pareto Front Optimization #Hypervolume Indicator #Gradient-based Optimization #Online RL

2025년 9월 16일

[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.

#Review #Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models #Robotic Manipulation #Data Scarcity #Generalization #Sim-to-Real Transfer #Online RL #Long-Horizon Planning

2025년 9월 12일