#Gradient-based Optimization

3개의 포스트

[논문리뷰] Test-Time Gradient Guidance of Flow Policies in Reinforcement Learning

본 논문은 표준적인 RL 정책(Policy)이 학습 이후 고정된 분포에서 액션을 샘플링하여 복잡한 제약 조건이나 급변하는 환경에서 최적 성능을 달성하지 못하는 한계를 해결하고자 합니다.

#Review #Reinforcement Learning #Flow Policies #Test-Time Guidance #Gradient-based Optimization #Trajectory Optimization #Policy Search

2026년 6월 9일

[논문리뷰] Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting

본 논문은 대규모 언어 모델(LLM)의 다중 목표 정렬(multi-objective alignment) 과정에서 고정된 보상 가중치 기반 선형 스칼라화 방식이 비볼록 파레토 프론트(non-convex Pareto fronts) 를 포착하지 못하고 준최적(suboptimal) 결과를 초래하는 한계를 해결하고자 합니다.

#Review #Multi-objective Reinforcement Learning #LLM Alignment #Dynamic Reward Weighting #Pareto Front Optimization #Hypervolume Indicator #Gradient-based Optimization #Online RL

2025년 9월 16일

[논문리뷰] Learning an Image Editing Model without Image Editing Pairs

본 논문은 대규모 입력-편집 쌍 데이터 에 대한 의존성을 제거하여 이미지 편집 모델 훈련의 주요 병목 현상을 해결하고자 합니다. 특히, 합성 데이터의 아티팩트 전파 문제를 피하고, 쌍 데이터 없이도 자연어 지침에 따라 이미지를 편집하는 모델을 학습하는 새로운 훈련 패러다임을 제안합니다.

#Review #Image Editing #Diffusion Models #Vision-Language Models (VLMs)#No-Pair Training #Few-step Generation #Distribution Matching #Gradient-based Optimization

2025년 10월 17일