[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

수정: 2026년 1월 6일

링크: 논문 PDF로 바로 열기

저자: Huichao Zhang, Liao Qu, Yiheng Liu, et al.

핵심 연구 목표

NextFlow는 단일 decoder-only autoregressive transformer 를 사용하여 멀티모달 이해 및 생성 능력을 통합하는 것을 목표로 합니다. 기존 래스터 스캔 방식의 AR 모델이 고해상도 시각 생성에서 비효율적이고, 확산 모델이 LLM의 추론 능력을 결여하는 한계를 극복하여 효율적이고 고품질의 멀티모달 경험을 제공하고자 합니다.

핵심 방법론

NextFlow는 Qwen2.5-VL-7B 를 기반으로 한 단일 디코더 전용 트랜스포머 아키텍처를 사용합니다. 시각적 생성에는 전통적인 래스터 스캔 대신 next-scale prediction 패러다임을 도입하여 효율성을 높였으며, TokenFlow [54] 기반의 듀얼 코드북 토크나이저 를 통해 의미론적 밀도와 픽셀 수준의 충실도를 모두 확보합니다. 또한, 6조 개 의 텍스트-이미지 토큰에 대한 대규모 훈련과 GRPO(Group Reward Policy Optimization)prefix-tuning 전략 을 통해 안정적인 학습과 성능 향상을 달성했습니다.

주요 결과

NextFlow는 1024 × 1024 이미지를 단 5초 만에 생성하여 기존 AR 모델 대비 속도를 대폭 개선했습니다. 또한, 1024x1024 해상도 에서 MMDiT 기반 확산 모델 [17] 보다 약 6배 적은 FLOPS 로 효율성을 입증했습니다. NextFlow-RL 모델은 DPG 벤치마크 에서 88.32점 을, GenEval 벤치마크 에서 0.84점 을 달성하여 최상위 확산 모델과 경쟁하며, EditCanvas 벤치마크 에서 8.04점 을 기록하며 이미지 편집 분야에서 SOTA 성능을 보여주었습니다.

AI 실무자를 위한 시사점

NextFlow는 단일 트랜스포머 로 멀티모달 작업을 효율적으로 처리할 수 있는 가능성을 제시하며, 복잡한 하이브리드 아키텍처 없이도 고품질 생성 및 이해를 가능하게 합니다. Next-scale prediction듀얼 코드북 토크나이저 는 고해상도 이미지 생성 속도를 획기적으로 단축시켜, 실시간 상호작용이 필요한 애플리케이션 개발에 유용합니다. 특히, Chain-of-Thought (CoT) 추론 및 In-context Learning 기능은 AI 시스템이 단순히 생성하는 것을 넘어, 보다 정교하고 문맥에 맞는 멀티모달 콘텐츠를 제작할 수 있는 기반을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#Multimodal AI#Decoder-only Transformer#Next-scale Prediction#Image Generation#Image Editing#Reinforcement Learning#Unified Modeling#TokenFlow

Review 의 다른글