본문으로 건너뛰기

[논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Junchao Yi, Rui Zhao, Jiahao Tang, Weixian Lei, Linjie Li, Qisheng Su, Zhengyuan Yang, Lijuan Wang, Xiaofeng Zhu, Alex Jinpeng Wang, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

  • FlowInOne : 제안하는 multimodal generation 프레임워크로, 텍스트, 레이아웃, 편집 지시사항 등 모든 입력 조건을 시각적 프롬프트(Visual Prompts)로 통일하여 Image-in, Image-out 파이프라인으로 처리함.
  • VisPrompt-5M : multimodal generation 모델의 학습을 위해 구축된 500만 쌍 규모의 대규모 시각적 프롬프트 데이터셋으로, 텍스트, bbox, 마커, 물리적 힘/궤적 등의 시각적 정보를 포함함.
  • VP-Bench : FlowInOne의 성능을 평가하기 위해 설계된 벤치마크로, instruction faithfulness, content consistency, visual realism, spatial precision 등 4가지 차원을 측정함.
  • Dual-Path Spatially-Adaptive Modulation : FlowInOne 아키텍처 내에서 입력 정보와 편집 유형에 따라 계산 경로를 동적으로 선택하여 구조적 보존과 명령 수행 사이의 균형을 맞추는 모듈임.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 multimodal generation이 언어 모델 중심의 파이프라인에 의존하여 vision의 자체적인 추론 및 생성 능력이 제한되는 문제를 해결하고자 한다. 기존의 T2I(Text-to-Image) 모델들은 linguistic embedding을 conditioning 소스로 사용함으로써 modality 간 비대칭성을 유발하며, 이는 이해(Understanding), 편집(Editing), 생성(Generation)을 단일 모델로 통합하는 것을 어렵게 만든다. 따라서 저자들은 텍스트와 같은 비시각적 정보를 모두 시각적 도메인으로 통합하여 고립된 modality 간의 병목 현상을 제거하고자 한다 [Figure 1].

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 multimodal generation을 시각적 도메인 내부의 연속적인 흐름(Continuous Visual Flow)으로 재정의하는 FlowInOne 프레임워크를 제안한다. 모든 입력 조건을 visual prompt canvas로 렌더링하고, Flow Matching 을 통해 입력 상태에서 타겟 이미지 상태로 결정론적(deterministic)인 진화를 학습한다. 이 과정에서 Dual-Path Spatially-Adaptive Modulation 을 사용하여 편집 작업 시 원본 이미지의 구조적 정보를 유지하거나 특정 영역을 재구성하도록 제어한다 [Figure 3]. 실험 결과, FlowInOne 은 VP-Bench 벤치마크에서 기존 오픈 소스 모델들을 압도하며, 상용 모델과 비교해서도 우수한 성능을 보였다. 특히 DINOv3 Sim 지표에서 48.7%를 기록하여 미세한 공간적/물리적 제어 능력이 뛰어나며, 다양한 visual instruction following 작업에서 최상의 정량적 지표를 달성하였다 [Table 1, Table 2].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 multimodal generation을 vision-centric한 image-in, image-out 패러다임으로 성공적으로 전환하였다. 이러한 통합은 기존의 복잡한 조건부 모듈을 제거하고 단일 모델 내에서 추론과 생성을 모두 수행할 수 있는 기반을 마련하였다는 점에서 의의가 크다. 특히 VisPrompt-5M 데이터셋은 향후 vision-centric 모델의 연구와 발전에 핵심적인 자원이 될 것이며, 본 연구는 modality 간의 구조적 격차를 해소하고 생성형 AI의 새로운 기반을 구축하는 데 기여하였다.


Part 2: 중요 Figure 정보

[
  {"figure_id": "Figure 1", "image_url": "https://arxiv.org/html/2604.06757v1/x2.png", "caption_kr": "기존 방식과 제안된 통합 파이프라인 비교"},
  {"figure_id": "Figure 3", "image_url": "https://arxiv.org/html/2604.06757v1/x4.png", "caption_kr": "FlowInOne 모델 전체 아키텍처"},
  {"figure_id": "Figure 4", "image_url": "https://arxiv.org/html/2604.06757v1/x5.png", "caption_kr": "편집 작업 정성적 비교"}
]

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

댓글

관련 포스트

Review 의 다른글