#Conditional Encoder

1개의 포스트

[논문리뷰] RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

본 논문은 현대 Text-to-Image (T2I) 시스템에서 LLM이 단순한 텍스트 인코딩에만 그치고 있다는 점을 문제로 제기합니다 . 기존 시스템들은 정적인 텍스트 임베딩만을 생성하고, 정작 중요한 denoising 과정은 새로 초기화된 DiT가 단독으로 수행하는 비효율적인 분업 구조를 취하고 있습니다.

#Review #RepFusion #Multimodal LLMs (MLLM)#Diffusion Transformers (DiT)#Representation Autoencoders (RAE)#Denoising #Conditional Encoder #Test-time Compute

2026년 6월 14일