#Controlled Generation

1개의 포스트

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.

#Review #Diffusion Transformer #Multimodal Face Generation #Cross-Modal Fusion #RoPE Attention #Controlled Generation

2026년 3월 31일