[논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

2026년 4월 7일수정: 2026년 4월 7일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

저자: Hyunsoo Cha, Wonjung Woo, Byungjun Kim, Hanbyul Joo

1. Key Terms & Definitions (핵심 용어 및 정의)

Vanast : 단일 인간 이미지, 의류 이미지, 포즈 가이드 비디오로부터 직접 의류가 변경된 인간 애니메이션 비디오를 합성하는 통합 프레임워크입니다.
Triplet Supervision : 인간 이미지, 의류 이미지, 그리고 해당 의류를 입고 움직이는 사람의 ground truth 비디오로 구성된 학습 데이터를 의미하며, 본 논문에서는 이를 합성하는 파이프라인을 제안합니다.
Dual Module Architecture : Video Diffusion Transformer 의 사전 학습된 품질을 유지하면서, 의류 전송과 포즈 안내를 위한 독립적인 경로를 제공하여 학습 안정성과 성능을 최적화하는 구조입니다.
Zero-shot Garment Interpolation : 추가적인 학습 없이 두 의류 사이의 스타일 전환을 부드럽게 보간(interpolation)하여 생성하는 기능입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 2단계 방식(이미지 기반 Virtual Try-On 후 포즈 기반 애니메이션 적용)이 가지는 정체성 훼손, 의류 왜곡, 그리고 시공간적 불일치 문제를 해결하기 위해 제안되었습니다. 기존 연구들은 두 단계를 분리하여 처리함으로써 학습 분포의 차이로 인한 아티팩트 발생과 비효율적인 연산 문제를 겪어왔습니다. 또한, 의류는 전후면 기하학적 구조가 뚜렷하지만, 일반적인 비디오 애니메이션 모델은 단일 정적 이미지에 의존하여 다양한 시점에서 일관된 외형을 합성하는 데 한계를 보입니다. 이러한 문제를 극복하기 위해서는 단일 단계에서 의류 전송과 인간 애니메이션을 동시에 처리할 수 있는 통합 프레임워크가 필수적입니다 [Figure 2].

Figure 2: Vanast 파이프라인 및 모델 구조

Figure 2 — Vanast 파이프라인 및 모델 구조

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Vanast 를 통해 단일 단계에서 고충실도의 애니메이션을 합성하는 end-to-end 시스템을 제안합니다. 핵심 방법론인 Dual Module 은 인간 애니메이션 모듈( HAM )과 의류 전송 모듈( GTM )로 나뉘어 사전 학습된 Video DiT 백본을 공유하며, 학습 시에는 이 두 모듈만을 최적화하여 빠른 수렴을 도모합니다 [Figure 2]. 또한, 대규모 합성 Triplet Dataset 을 구축하여 의류 정확도와 포즈 준수 능력을 대폭 향상시켰습니다 [Figure 3]. 실험 결과, Vanast 는 Internet 및 ViViD 데이터셋에서 기존의 2단계 조합 모델들(이미지 기반 VTON 및 애니메이션 모델의 조합) 대비 우수한 성능을 보였습니다. 정량적 지표에서 LPIPS 와 FID 점수가 압도적으로 낮게 나타나며 시각적 충실도와 정교한 의류 전송에서 비교 우위를 점했습니다 [Table 1, Table 2]. 정성적 평가에서도 Vanast 는 복잡한 포즈를 정확히 추종하면서도 정체성과 의류 디테일을 성공적으로 보존함을 입증했습니다 [Figure 4, Figure 5].

Figure 3: 합성 Triplet 데이터셋 예시

Figure 3 — 합성 Triplet 데이터셋 예시

4. Conclusion & Impact (결론 및 시사점)

본 연구는 의류 전송과 인간 애니메이션을 통합한 최초의 단일 단계 프레임워크인 Vanast 를 통해 기존 기술의 한계를 성공적으로 극복하였습니다. 제안된 Dual Module 구조와 합성 데이터 생성 파이프라인은 정체성 보존과 고품질의 의류 합성이라는 두 마리 토끼를 잡는 데 기여했습니다. 특히 Zero-shot Garment Interpolation 과 같은 기능은 산업 현장에서 별도의 재학습 없이도 유연한 서비스 확장이 가능함을 시사합니다. 이 연구는 향후 패션 기술 및 가상 아바타 애니메이션 분야에서 실용적이고 범용적인 도구로 활용될 것으로 기대됩니다.

Figure 4: Subject-to-Image 기반 비교

Figure 4 — Subject-to-Image 기반 비교

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement
현재글 : [논문리뷰] Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision
다음글 [논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding