[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.#Review#Reinforcement Learning#Flow Policies#Test-Time Guidance#Gradient-based Optimization#Trajectory Optimization#Policy Search2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.#Review#Multi-objective Reinforcement Learning#LLM Alignment#Dynamic Reward Weighting#Pareto Front Optimization#Hypervolume Indicator#Gradient-based Optimization#Online RL2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Learning an Image Editing Model without Image Editing Pairs본 논문은 대규모 입력-편집 쌍 데이터 에 대한 의존성을 제거하여 이미지 편집 모델 훈련의 주요 병목 현상을 해결하고자 합니다. 특히, 합성 데이터의 아티팩트 전파 문제를 피하고, 쌍 데이터 없이도 자연어 지침에 따라 이미지를 편집하는 모델을 학습하는 새로운 훈련 패러다임을 제안합니다.#Review#Image Editing#Diffusion Models#Vision-Language Models (VLMs)#No-Pair Training#Few-step Generation#Distribution Matching#Gradient-based Optimization2025년 10월 17일댓글 수 로딩 중