[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reward Modeling#Instruction-Guided Editing#Online RL#Visual Language Models#Benchmark#Self-Ensembling2025년 9월 30일댓글 수 로딩 중
[논문리뷰] DiffusionNFT: Online Diffusion Reinforcement with Forward Process본 논문은 확산 모델의 온라인 강화 학습(RL) 적용 시 발생하는 고유한 문제점, 즉 다루기 어려운 가능도(likelihoods)와 역방향 샘플링 과정의 제약사항을 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Reinforcement Learning#Online RL#Flow Matching#Forward Process#CFG-free#Image Generation#Negative-Aware FineTuning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning본 논문은 GUI(Graphical User Interface) 에이전트의 자동화에서 기존 오프라인 RL 의 제한된 다중 턴 추론 능력과 온라인 RL 의 높은 배포 비용 및 희소한 보상 문제를 해결하는 것을 목표로 합니다.#Review#GUI Automation#Reinforcement Learning#Semi-online RL#Offline RL#Online RL#Patch Module#Multi-turn Interaction#Large Language Models2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.#Review#Multi-objective Reinforcement Learning#LLM Alignment#Dynamic Reward Weighting#Pareto Front Optimization#Hypervolume Indicator#Gradient-based Optimization#Online RL2025년 9월 16일댓글 수 로딩 중
[논문리뷰] SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning본 논문은 Vision-Language-Action (VLA) 모델이 로봇 조작 태스크에서 겪는 데이터 희소성 과 일반화 능력 부족 이라는 두 가지 근본적인 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL)을 통해 VLA 모델의 장기적이고 단계별 액션 플래닝 능력을 향상시키는 방법을 모색합니다.#Review#Reinforcement Learning (RL)#Vision-Language-Action (VLA) Models#Robotic Manipulation#Data Scarcity#Generalization#Sim-to-Real Transfer#Online RL#Long-Horizon Planning2025년 9월 12일댓글 수 로딩 중