본문으로 건너뛰기

#Diffusion Model

27개의 포스트

[논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

댓글 수 로딩 중

[논문리뷰] MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

댓글 수 로딩 중

[논문리뷰] EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

댓글 수 로딩 중

[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

댓글 수 로딩 중

[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

댓글 수 로딩 중

[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

댓글 수 로딩 중

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

댓글 수 로딩 중

[논문리뷰] LongCat-Image Technical Report

댓글 수 로딩 중

[논문리뷰] Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

댓글 수 로딩 중

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

댓글 수 로딩 중

[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

댓글 수 로딩 중

[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

댓글 수 로딩 중

[논문리뷰] OmniTry: Virtual Try-On Anything without Masks

댓글 수 로딩 중

[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

댓글 수 로딩 중

[논문리뷰] GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

댓글 수 로딩 중

[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

댓글 수 로딩 중

[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

댓글 수 로딩 중

[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection

댓글 수 로딩 중

[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation

댓글 수 로딩 중