[논문리뷰] FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching본 논문은 기존 multimodal generation이 언어 모델 중심의 파이프라인에 의존하여 vision의 자체적인 추론 및 생성 능력이 제한되는 문제를 해결하고자 한다.#Review#Multimodal Generation#Flow Matching#Visual Prompts#Image-in Image-out#Visual Instruction Following#VisPrompt-5M#VP-Bench2026년 4월 8일댓글 수 로딩 중