[논문리뷰] LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories

2026년 4월 16일수정: 2026년 4월 16일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Zhanhao Liang, Tao Yang, Jie Wu, Chengjian Feng, Liang Zheng, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Flow Matching: 생성 모델링을 위해 가우시안 노이즈에서 데이터 분포로의 연속적인 변환을 학습하는 방법론입니다.
Direct-Gradient Method: 생성 과정의 미분 가능성을 활용하여 보상(Reward) 그래디언트를 모델 파라미터로 직접 역전파하여 fine-tuning하는 기법입니다.
Leap Trajectory: 전체 샘플링 과정에서 두 개의 timesteps를 임의로 선택하여 구성한 두 단계(two-step)의 단축된 생성 궤적입니다.
Gradient Discounting: 역전파 과정에서 발생하는 큰 크기의 그래디언트 항을 제거하는 대신, 적절한 가중치를 적용하여 크기를 줄임으로써 학습을 안정화하는 기술입니다.
Nested Gradient: 여러 생성 단계를 거쳐 역전파될 때 발생하는 항으로, 단계 간의 상호작용을 포착하는 데 유용합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Flow Matching 모델을 인간의 선호도에 맞게 정렬(alignment)하는 과정에서 기존 Direct-Gradient 방식들이 가진 고비용 메모리 문제와 그래디언트 폭주(gradient explosion) 문제를 해결하고자 합니다. 기존 방식들은 전체 궤적에 대한 역전파가 불가능하여 최종 이미지에 가까운 일부 단계만 업데이트하며, 이로 인해 이미지의 전반적인 레이아웃을 결정하는 초기 단계 학습이 제한됩니다. 또한, 그래디언트 폭주를 피하기 위해 그래디언트를 강제로 차단하는 방식은 유용한 학습 신호까지 손실시키는 한계가 있습니다. 이러한 문제들을 해결하기 위해 제안된 LeapAlign은 효율적인 역전파를 위한 새로운 구조를 제시합니다 [Figure 1].

Figure 1: LeapAlign 성능 개요

Figure 1 — LeapAlign 성능 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 생성 궤적을 두 개의 one-step leap으로 단축한 Leap Trajectory를 구성하여 메모리 비용을 일정하게 유지하면서도 임의의 단계에서 직접 그래디언트를 역전파할 수 있게 합니다 [Figure 2]. LeapAlign은 그래디언트 폭주를 방지하기 위해 Gradient Discounting 메커니즘을 도입하여 Nested Gradient를 완전히 제거하는 대신 그 크기를 조절하여 학습 신호를 보존합니다. 또한, 원본 생성 경로와 유사도가 높은 leap trajectory에 더 높은 가중치를 부여하는 Trajectory-Similarity Weighting을 통해 fine-tuning의 안정성과 정확도를 높였습니다. 실험 결과, Flux 모델을 fine-tuning했을 때 LeapAlign은 기존 GRPO 및 Direct-Gradient 방식(예: DRTune) 대비 일관되게 우수한 성능을 보였습니다. 정량적으로 HPSv2.1 지표에서 0.4092를 달성하여 기존 최고 성능(0.3882)을 상회하였으며, GenEval benchmark에서도 overall score 0.7420으로 경쟁 기법들보다 높은 수치를 기록했습니다 [Table 2].

Figure 2: LeapAlign 전체 프레임워크

Figure 2 — LeapAlign 전체 프레임워크

4. Conclusion & Impact (결론 및 시사점)

LeapAlign은 두 단계 leap 궤적을 통해 메모리 비용은 최소화하고 초기 생성 단계까지 효과적인 그래디언트 흐름을 가능하게 하여 Flow Matching 모델의 선호도 정렬을 비약적으로 개선했습니다. 본 연구는 그래디언트 차단이 아닌 '할인(discounting)' 개념을 도입하여 학습 신호의 손실을 방지하고, 경로 유사도 가중치를 통해 정렬 품질을 극대화했습니다. 이러한 접근법은 학계와 산업계에서 복잡한 다단계 생성 모델을 더 빠르고 안정적으로 human preference에 맞게 최적화하는 핵심 기술로 활용될 것으로 기대됩니다. 향후 본 기술은 고해상도 이미지 생성을 넘어 비디오 생성 모델링으로 확장될 가능성을 제시합니다.

Figure 3: GenEval 정성적 비교

Figure 3 — GenEval 정성적 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs
현재글 : [논문리뷰] LeapAlign: Post-Training Flow Matching Models at Any Generation Step by Building Two-Step Trajectories
다음글 [논문리뷰] LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning