[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

2026년 4월 8일수정: 2026년 4월 8일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Yitong Li, Junsong Chen, Shuchen Xue, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

GRPO (Group Relative Policy Optimization) : Critic 네트워크를 사용하지 않고, 생성된 candidate 그룹 내의 상대적 보상(relative reward)을 활용하여 정책을 최적화하는 효율적인 RL 알고리즘입니다.
NVFP4 : NVIDIA 하드웨어에서 가속을 지원하는 4-bit 부동소수점 포맷으로, 연산 효율성을 극대화하기 위해 블록 수준의 미세 스케일링을 사용합니다.
Rollout Scaling : 모델 학습 시 한 번의 업데이트를 위해 더 많은 후보군(candidate pool)을 생성하여 더 정밀한 정책 개선 신호를 얻는 학습 패러다임입니다.
Sol-RL (Speed-of-light RL) : FP4를 활용한 고효율 탐색과 BF16 기반의 고충실도 최적화를 분리한 본 논문의 제안 프레임워크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 Diffusion RL에서 rollout 크기를 확장함으로써 학습 성능을 향상하려 할 때 발생하는 심각한 계산 비용 문제를 해결하는 것을 목적으로 합니다. 기존 연구는 더 많은 후보군을 샘플링하여 학습 신호를 정교하게 만드는 것이 Alignment 성능 개선에 핵심적임을 보였으나, 이러한 대규모 rollout은 추론 비용을 급격히 증가시켜 학습의 병목 현상을 유발합니다 [Figure 3]. 계산 효율성을 위해 naive하게 quantized rollout을 직접 학습 대상으로 사용할 경우, 수치적 왜곡으로 인한 모델 성능 저하와 학습 불안정성이 발생하여 Alignment 결과에 엄격한 한계를 초래합니다 [Figure 3]. 따라서 저자들은 효율적인 탐색과 높은 정밀도의 학습이라는 두 마리 토끼를 모두 잡을 수 있는 새로운 접근 방식을 제안합니다.

Figure 3: NVFP4 rollout의 한계와 가능성 분석

Figure 3 — NVFP4 rollout의 한계와 가능성 분석

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL 이라는 2단계(two-stage) 프레임워크를 제안합니다 [Figure 2]. 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다. 2단계에서는 선별된 최소한의 후보들만을 BF16 정밀도로 재생성(regeneration)하여 정책 네트워크를 업데이트함으로써, quantized rollout으로 인한 학습 성능 저하를 방지합니다. 실험 결과, 본 제안 방법은 FLUX.1 , SANA , SD3.5-L 등의 다양한 기반 모델에서 기존 Baseline 대비 최대 4.64× 의 학습 수렴 속도 향상을 기록했습니다 [Figure 4]. 정량적 지표 측면에서, ImageReward , CLIPScore , PickScore , HPSv2 등 주요 Alignment 지표에서 뛰어난 성능을 보이며 BF16 단독 파이프라인과 대등한 수준의 높은 품질을 유지했습니다 [Table 1].

Figure 2: Sol-RL의 2단계 학습 파이프라인

Figure 2 — Sol-RL의 2단계 학습 파이프라인

4. Conclusion & Impact (결론 및 시사점)

본 연구는 고효율의 FP4 탐색과 고정밀의 BF16 최적화를 전략적으로 결합하여, Diffusion RL에서 Rollout Scaling의 효율성-성능 딜레마를 효과적으로 해결했습니다. 제안된 Sol-RL 프레임워크는 대규모 rollout의 이점을 저비용으로 누리면서도 최신 하드웨어의 연산 가속 능력을 극대화할 수 있음을 입증했습니다. 이는 향후 대규모 확산 모델의 인간 선호도 정렬(Alignment) 과정을 대폭 가속화하고, 보다 정밀한 모델 최적화가 가능한 비용 효율적인 파이프라인을 제시했다는 점에서 중요한 학계 및 산업적 시사점을 가집니다.

Figure 1: Sol-RL의 효율성과 성과 개요

Figure 1 — Sol-RL의 효율성과 성과 개요

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules
현재글 : [논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling
다음글 [논문리뷰] Fast Spatial Memory with Elastic Test-Time Training