[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.#Review#Diffusion Transformer#Multimodal Face Generation#Cross-Modal Fusion#RoPE Attention#Controlled Generation2026년 3월 31일댓글 수 로딩 중