#Diffusion Decoder

3개의 포스트

[논문리뷰] Unified Latents (UL): How to train your latents

확산 모델을 위한 레이턴트 표현 학습에 있어 정보 내용과 재구성 품질 간의 근본적인 트레이드오프 문제를 해결하고자 합니다.

#Review #Diffusion Models #Latent Representation Learning #VAE #Image Generation #Video Generation #Bitrate Control #Training Efficiency #Diffusion Prior #Diffusion Decoder

2026년 2월 19일

[논문리뷰] InternVideo-Next: Towards General Video Foundation Models without Video-Text Supervision

본 논문은 노이즈 많고 제한적인 비디오-텍스트 지도 학습의 한계와 저수준 픽셀 재구성에 머무르거나 숏컷 학습을 유도하는 기존 Masked Video Modeling (MVM) 의 문제점을 해결하고자 합니다.

#Review #Video Foundation Models #Self-Supervised Learning #Masked Video Modeling #Video-Text Supervision-Free #Encoder-Predictor-Decoder #Diffusion Decoder #Semantic Alignment #Latent World Model

2025년 12월 1일

[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

기존 통합 멀티모달 LLM이 시각적 이해와 생성 능력 사이의 성능 트레이드오프, 특히 텍스트가 풍부한 벤치마크에서의 저하를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Hybrid Tokenizer #Text-to-Image Generation #Visual Question Answering #Autoregressive Model #Diffusion Decoder #Unified Architecture #Model Scaling

2025년 9월 22일