#Two-stage Framework

1개의 포스트

[논문리뷰] FP4 Explore, BF16 Train: Diffusion Reinforcement Learning via Efficient Rollout Scaling

본 논문은 탐색(exploration)과 최적화(optimization)를 분리한 Sol-RL이라는 2단계(two-stage) 프레임워크를 제안합니다 . 1단계에서는 고도로 최적화된 NVFP4 추론을 통해 방대한 후보군을 빠르게 생성하여 상대적 보상 순위를 매기고, 상위 및 하위의 contrastive subset을 선별합니다.

#Review #Diffusion Models #Reinforcement Learning #FP4 Quantization #Rollout Scaling #Alignment #Efficiency #Two-stage Framework

2026년 4월 8일