[논문리뷰] RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space본 논문은 현대 Text-to-Image (T2I) 시스템에서 LLM이 단순한 텍스트 인코딩에만 그치고 있다는 점을 문제로 제기합니다 . 기존 시스템들은 정적인 텍스트 임베딩만을 생성하고, 정작 중요한 denoising 과정은 새로 초기화된 DiT가 단독으로 수행하는 비효율적인 분업 구조를 취하고 있습니다.#Review#RepFusion#Multimodal LLMs (MLLM)#Diffusion Transformers (DiT)#Representation Autoencoders (RAE)#Denoising#Conditional Encoder#Test-time Compute2026년 6월 14일댓글 수 로딩 중