[논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

2026년 4월 8일수정: 2026년 4월 8일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

FlowInOne : 제안하는 multimodal generation 프레임워크로, 텍스트, 레이아웃, 편집 지시사항 등 모든 입력 조건을 시각적 프롬프트(Visual Prompts)로 통일하여 Image-in, Image-out 파이프라인으로 처리함.
VisPrompt-5M : multimodal generation 모델의 학습을 위해 구축된 500만 쌍 규모의 대규모 시각적 프롬프트 데이터셋으로, 텍스트, bbox, 마커, 물리적 힘/궤적 등의 시각적 정보를 포함함.
VP-Bench : FlowInOne의 성능을 평가하기 위해 설계된 벤치마크로, instruction faithfulness, content consistency, visual realism, spatial precision 등 4가지 차원을 측정함.
Dual-Path Spatially-Adaptive Modulation : FlowInOne 아키텍처 내에서 입력 정보와 편집 유형에 따라 계산 경로를 동적으로 선택하여 구조적 보존과 명령 수행 사이의 균형을 맞추는 모듈임.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 multimodal generation이 언어 모델 중심의 파이프라인에 의존하여 vision의 자체적인 추론 및 생성 능력이 제한되는 문제를 해결하고자 한다. 기존의 T2I(Text-to-Image) 모델들은 linguistic embedding을 conditioning 소스로 사용함으로써 modality 간 비대칭성을 유발하며, 이는 이해(Understanding), 편집(Editing), 생성(Generation)을 단일 모델로 통합하는 것을 어렵게 만든다. 따라서 저자들은 텍스트와 같은 비시각적 정보를 모두 시각적 도메인으로 통합하여 고립된 modality 간의 병목 현상을 제거하고자 한다 [Figure 1].

Figure 1: 기존 방식과 제안된 통합 파이프라인 비교

Figure 1 — 기존 방식과 제안된 통합 파이프라인 비교

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 multimodal generation을 시각적 도메인 내부의 연속적인 흐름(Continuous Visual Flow)으로 재정의하는 FlowInOne 프레임워크를 제안한다. 모든 입력 조건을 visual prompt canvas로 렌더링하고, Flow Matching 을 통해 입력 상태에서 타겟 이미지 상태로 결정론적(deterministic)인 진화를 학습한다. 이 과정에서 Dual-Path Spatially-Adaptive Modulation 을 사용하여 편집 작업 시 원본 이미지의 구조적 정보를 유지하거나 특정 영역을 재구성하도록 제어한다 [Figure 3]. 실험 결과, FlowInOne 은 VP-Bench 벤치마크에서 기존 오픈 소스 모델들을 압도하며, 상용 모델과 비교해서도 우수한 성능을 보였다. 특히 DINOv3 Sim 지표에서 48.7%를 기록하여 미세한 공간적/물리적 제어 능력이 뛰어나며, 다양한 visual instruction following 작업에서 최상의 정량적 지표를 달성하였다 [Table 1, Table 2].

Figure 3: FlowInOne 모델 전체 아키텍처

Figure 3 — FlowInOne 모델 전체 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 연구는 multimodal generation을 vision-centric한 image-in, image-out 패러다임으로 성공적으로 전환하였다. 이러한 통합은 기존의 복잡한 조건부 모듈을 제거하고 단일 모델 내에서 추론과 생성을 모두 수행할 수 있는 기반을 마련하였다는 점에서 의의가 크다. 특히 VisPrompt-5M 데이터셋은 향후 vision-centric 모델의 연구와 발전에 핵심적인 자원이 될 것이며, 본 연구는 modality 간의 구조적 격차를 해소하고 생성형 AI의 새로운 기반을 구축하는 데 기여하였다.

Figure 4: 편집 작업 정성적 비교

Figure 4 — 편집 작업 정성적 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Fast Spatial Memory with Elastic Test-Time Training
현재글 : [논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching
다음글 [논문리뷰] INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling