#Diffusion Model

27개의 포스트

[논문리뷰] Direct 3D-Aware Object Insertion via Decomposed Visual Proxies

본 연구는 기존의 Object insertion 기술이 2D image plane에 국한되어 있어, 사용자가 원하는 물체의 3D pose를 정밀하게 제어하지 못하는 한계를 해결하고자 합니다.

#Review #Object Insertion #Pose-Controllable #Decomposed Visual Proxies #3D-Aware #Diffusion Model #Image Synthesis

2026년 6월 7일

[논문리뷰] Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

본 논문은 자율주행 환경에서 시야가 차단된(partially observable) 환경에서의 인지 불확실성과 이로 인한 주행 전략 수립의 한계를 해결하고자 합니다.

#Review #Autonomous Driving #Partial Observability #Risk Map #Diffusion Model #Occlusion-Aware Prediction #Trajectory Planning

2026년 5월 28일

[논문리뷰] Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

본 논문은 자율주행 시스템(ADS) 검증에 필수적인 long-tail 데이터 확보의 어려움을 해결하기 위해 제안되었다.

#Review #Autonomous Driving #Generative Modeling #Diffusion Model #4D Gaussian Splatting #Cross-Embodiment #Sensor Conversion

2026년 5월 21일

[논문리뷰] PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution

본 논문은 심각하게 훼손된 텍스트 이미지에서 기존의 Text-SR 방법론들이 보이는 한계점을 지적하며 연구를 시작합니다. 기존 연구들은 강력한 생성적 Prior를 사용하려 시도하지만, 심각하게 열악한 입력 환경에서는 이 Prior가 신뢰할 수 없는 노이즈가 되어 인식 오류를 발생시킵니다.

#Review #Text Image Super-Resolution #Diffusion Model #Flow Matching #Uncertainty-Aware #Prior Rectification #Structure Refinement

2026년 5월 14일

[논문리뷰] MACE-Dance: Motion-Appearance Cascaded Experts for Music-Driven Dance Video Generation

본 논문은 음악 기반 댄스 비디오 생성 시 발생하는 모션의 비현실성과 시각적 일관성 부족 문제를 해결하는 것을 목표로 합니다. 기존 연구들은 주로 3D 모션 생성에만 집중하거나, 인물 이미지 애니메이션 기술을 그대로 적용하여 복잡한 댄스 동작을 제대로 처리하지 못하는 한계가 있습니다.

#Review #Music-Driven Dance #Video Generation #Mixture-of-Experts #Diffusion Model #BiMamba-Transformer #Guidance-Free Training

2026년 5월 10일

[논문리뷰] EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

EDITCRAFTER는 고해상도 이미지의 identity를 보존하는 Tiled DDIM Inversion 모듈과, 고해상도 잠재 공간에서 텍스트 정렬을 최적화하는 NDCFG++ 샘플링 과정을 핵심으로 합니다. 먼저 입력 이미지를 타일 단위로 역전파하여 인버전 잠재 벡터를 생성하고, 이를 결합하여 전체 고해상도 정보를 초기화합니다.

#Review #High-Resolution Image Editing #Diffusion Model #Tiled DDIM Inversion #NDCFG++#Tuning-free

2026년 4월 23일

[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.

#Review #Multimodal Generation #Vision-Language Model #Latent Embeddings #Diffusion Model #Representation Alignment #Unified Framework

2026년 4월 22일

[논문리뷰] FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On

본 논문은 기존 가상 착용(VTO) 기술이 의류의 외형 재현에는 뛰어나지만, 사용자의 체형이나 의류의 실제 사이즈를 반영한 '핏(fit)'을 정확히 표현하지 못한다는 핵심 문제 의식을 제기합니다.

#Review #Virtual Try-On #Diffusion Model #Sim2Real #Dataset #Fit-Awareness #Physics Simulation

2026년 4월 9일

[논문리뷰] Coarse-Guided Visual Generation via Weighted h-Transform Sampling

Coarse-Guided Visual Generation 은 deblurring, super-resolution 등 다양한 실제 애플리케이션에 필수적입니다.

#Review #Guided Visual Generation #Diffusion Model #Doob's h-Transform #Coarse-guided Generation #Training-free #Image Restoration #Video Generation #Weighted Sampling

2026년 3월 12일

[논문리뷰] UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

본 연구는 기존 통합 멀티모달 모델의 한계를 해결하고자 합니다. 특히, 이산적인 시각 토크나이저 사용으로 인한 세부 의미 정보 손실 문제와, 연속적인 고차원 시각 표현을 직접 모델링할 때 발생하는 학습 불안정성 및 느린 수렴 문제를 극복하는 것을 목표로 합니다.

#Review #Unified Multimodal Model #Image Generation #Image Understanding #Semantic Compression #Continuous Representation #Diffusion Model #Transformer #Image Editing

2026년 3월 11일

[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

의료 영상 이해(semantic abstraction)와 생성(pixel-level reconstruction)이라는 근본적으로 상충하는 목표를 기존 파라미터 공유 방식의 단일 모델에서 통합할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Chest X-Ray #Medical Foundation Model #Autoregressive Model #Diffusion Model #Multimodal Learning #Image Understanding #Image Generation #Cross-Modal Attention

2026년 1월 20일

[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset

기존 산업용 결함 검사 시스템의 높은 오탐률, 낮은 적응성, 일반화 능력 부족, 그리고 블랙박스 모델의 해석 불가능성 한계를 극복하는 것이 목표입니다.

#Review #Industrial Defect Detection #Multimodal Dataset #Vision-Language Model #Diffusion Model #Open-Vocabulary Learning #Quality Inspection #Data Efficiency #Foundation Model

2026년 1월 8일

[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation

기존 멀티모달 LLM(MLLM)이 이미지-텍스트에 치중하거나 영상과 오디오를 별개로 처리하여 동기화된 사운딩 비디오(synchronized sounding video)의 정밀한 시공간적 정렬을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal LLM #Sounding Video #Video Comprehension #Video Generation #Audio-Video Synchronization #Instruction Tuning #Diffusion Model #Encoder-Decoder

2025년 12월 31일

[논문리뷰] LongCat-Image Technical Report

컴퓨터 비전 분야에서 다국어 텍스트 렌더링, 사실주의, 배포 효율성, 개발자 접근성 등 기존 주요 모델들의 핵심 과제를 해결하고자 합니다. LongCat-Image 는 브루트 포스 스케일링에 대한 의존성에서 벗어나 최첨단 성능과 효율성 간의 최적의 균형을 이루는 경량 오픈소스 기반 모델을 목표로 합니다.

#Review #Image Generation #Text-to-Image #Image Editing #Diffusion Model #Multilingual Text Rendering #Photorealism #Efficiency #Open-Source

2025년 12월 8일

[논문리뷰] Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image

논문은 단일 정적 이미지로부터 물리적으로 그럴듯하고 시간적으로 일관된 동적인 4D 장면(3D 기하학과 시간적 역학) 을 생성하는 핵심적인 문제를 해결하는 것을 목표로 합니다. 기존의 기하학-모션 분리 패러다임에서 발생하는 시공간적 불일치와 일반화 부족 문제를 극복하고자 합니다.

#Review #4D Synthesis #3D Reconstruction #Motion Generation #Single Image #Diffusion Model #Point Cloud #Dataset Curation #View Synthesis

2025년 12월 7일

[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer

본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Model #Linear Attention #Transformer #Long Video #Efficient Inference #Constant Memory #Low-Cost Training #RTX Deployment

2025년 9월 30일

[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

본 논문은 자동차 손상 평가와 같은 미세하고 컨텍스트에 의존적인 시나리오 에서 객체 탐지의 한계를 극복하는 것을 목표로 합니다. 특히, 기존 DiffusionDet 모델이 로컬 특징 조건화 에만 의존하여 발생하는 탐지 오류를 해결하고, 전역 장면 컨텍스트 를 활용하여 고정밀 탐지 성능을 달성하고자 합니다.

#Review #Object Detection #Diffusion Model #Global Scene Context #Context-Aware Fusion #Fine-grained Detection #Automotive Damage Assessment #Generative Denoising #Cross-Attention

2025년 9월 3일

[논문리뷰] TaDiCodec: Text-aware Diffusion Speech Tokenizer for Speech Language Modeling

본 논문은 기존 스피치 토크나이저의 한계점, 즉 다층 RVQ 구조 또는 높은 프레임 레이트 에 대한 의존성, 보조 사전 학습 모델 을 통한 의미론적 증류의 필요성, 복잡한 2단계 훈련 프로세스 등을 극복하는 것을 목표로 합니다.

#Review #Speech Tokenizer #Diffusion Model #Text-to-Speech #Speech Language Modeling #Low Bitrate Codec #End-to-End Training #Binary Spherical Quantization

2025년 8월 26일

[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding

본 논문은 기존 Video-LLM의 한계인 불명확한 시간 인코딩, 프레임 수준의 낮은 연속성, 그리고 관심 엔티티에 대한 언어-비전 정렬 불일치를 극복하는 것을 목표로 합니다. 특히 긴 비디오에서 발생하는 이벤트의 정밀한 시간적 위치 파악과 엔티티 수준의 견고한 정렬을 통해 비디오 이해 능력을 향상시키고자 합니다.

#Review #Video-LLM #Diffusion Model #Temporal Grounding #Object Segmentation #Long Video Understanding #Multimodal AI #Video Question Answering

2025년 8월 22일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] OmniTry: Virtual Try-On Anything without Masks

이 논문은 기존 가상 착용(VTON) 기술이 의류에 국한되고 입력 마스크를 필요로 하는 한계를 극복하고자 합니다. 마스크 없이도 주얼리, 액세서리 등 다양한 종류의 착용 가능한 객체 를 가상으로 착용시켜볼 수 있는 범용적인 VTON 프레임워크인 OmniTry 를 개발하여, 실제 응용 분야의 폭넓은 확장을 목표로 합니다.

#Review #Virtual Try-On #Diffusion Model #Mask-Free #Image Inpainting #ID Consistency #Wearable Objects #Generative AI

2025년 8월 20일

[논문리뷰] StyleMM: Stylized 3D Morphable Face Model via Text-Driven Aligned Image Translation

본 논문은 기존 3D Morphable Model (3DMM)의 한계, 즉 일관된 메쉬 구조, 분리된 제어, 그리고 사실적 범위를 넘어서는 스타일화라는 세 가지 핵심 요구사항을 동시에 충족하지 못하는 문제를 해결하고자 합니다.

#Review #3D Morphable Model #Face Stylization #Text-to-Image Translation #Diffusion Model #Attribute Preservation #Generative AI #Computer Graphics

2025년 8월 18일

[논문리뷰] GSFixer: Improving 3D Gaussian Splatting with Reference-Guided Video Diffusion Priors

본 논문은 적은 수의 입력 영상으로 3D Gaussian Splatting (3DGS) 장면을 재구성할 때 발생하는 시각적 아티팩트와 3D 불일치 문제 를 해결하는 것을 목표로 합니다. 특히, 기존 생성 모델들이 생성된 콘텐츠와 입력 뷰 간의 일관성을 유지하는 데 어려움 을 겪는 한계를 극복하고자 합니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Diffusion Model #Artifact Restoration #Sparse-view 3D Reconstruction #Reference-Guided

2025년 8월 14일

[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

본 연구는 강력한 추론 능력을 유지하면서도 고품질 시각적 합성 기능을 LLM에 통합하는 것을 목표로 합니다. 특히, 기존 방식들이 높은 훈련 비용을 수반하고 백본 LLM의 이미지 표현 학습 부족으로 어려움을 겪는 문제를 해결하여, 고충실도 및 제어 가능한 이미지 생성을 효율적으로 달성하고자 합니다.

#Review #Multimodal LLM #Diffusion Model #CLIP Latent #Image Generation #Multimodal Understanding #ControlNet #Training Efficiency

2025년 8월 12일

[논문리뷰] Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

본 논문은 로봇 조작을 위한 통합된 세계 파운데이션 플랫폼 (Genie Envisioner) 을 제시하여, 정책 학습, 평가 및 시뮬레이션을 단일 비디오-생성 프레임워크 내에서 통합하는 것을 목표로 합니다. 이는 기존 로봇 개발 과정의 단편적인 단계를 극복하고 확장 가능하며 범용적인 지능형 로봇 시스템 구축을 지향합니다.

#Review #Robotic Manipulation #World Model #Video Generation #Diffusion Model #Embodied AI #Foundation Model #Robotics Simulation #Policy Learning

2025년 8월 8일

[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection

기존 앵커 기반 차선 감지 방법론의 고질적인 일반화 능력 부족 과 과적합 문제 를 해결하기 위해, 차선 감지 태스크를 노이즈 제거 확산(denoising diffusion) 과정 으로 재정의하는 확산 모델 기반 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Lane Detection #Diffusion Model #Denoising Diffusion #Hybrid Decoding #Anchor-based #Domain Adaptation #Computer Vision #Generative Models

2025년 10월 28일

[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image Generation

본 논문은 BLIP3o-NEXT 라는 오픈소스 기반 모델을 제안하여 차세대 이미지 생성의 발전을 목표로 합니다. 단일 아키텍처 내에서 텍스트-투-이미지 생성 과 이미지 편집 기능을 통합하고, 강력한 이미지 생성 및 편집 능력을 시연하는 것을 주된 목표로 합니다.

#Review #Image Generation #Image Editing #Autoregressive Model #Diffusion Model #Reinforcement Learning #Multimodal AI #Foundation Model #Open-source

2025년 10월 20일