#Discrete Diffusion

12개의 포스트

[논문리뷰] Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

본 논문은 기존 자율주행 시스템이 행동 조건부 동역학(Action-conditioned dynamics)을 명시적으로 모델링하지 못하고, 단순한 Direct State-to-Action Mapping에 의존한다는 근본적인 한계를 해결하고자 한다 .

#Review #Autonomous Driving #World Model #Discrete Diffusion #Token Editing #Policy Learning #Counterfactual Reasoning

2026년 6월 4일

[논문리뷰] Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

본 논문은 UDM에서 사용되는 Bridge Plug-in 파라미터화가 표준적인 노이즈 제거 목표(denoising posterior)를 최적화하지 못한다는 구조적 불일치 문제를 해결합니다.

#Review #Uniform Diffusion Models #Leave-one-out #Denoiser #Absorbing State Reformulation #Discrete Diffusion #Bridge Plug-in

2026년 5월 28일

[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation

기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.

#Review #Vision-Language-Action (VLA)#Discrete Diffusion #Multi-modal Generation #Robotic Manipulation #Action Chunking #World Model #Hybrid Attention

2026년 4월 1일

[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

본 논문은 멀티모달 이해 및 생성 분야에서 확산 언어 모델의 잠재력을 탐구하며, 텍스트와 이미지라는 근본적으로 다른 확산 역학을 통합하는 데 따르는 비효율성과 고정된 출력 길이의 한계를 해결하고자 합니다.

#Review #Omni Diffusion Model #Multimodal AI #Length Adaptation #Mixture of Diffusion #Discrete Diffusion #Continuous Diffusion #Text-to-Image Generation

2026년 3월 2일

[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models

본 논문은 텍스트, 이미지-텍스트, 오디오-텍스트 데이터에 대해 처음부터 사전 훈련된 최초의 삼중 모달(tri-modal) 마스크드 확산 모델(MDM) 을 소개합니다.

#Review #Masked Diffusion Models #Multimodal AI #Scaling Laws #Discrete Diffusion #SDE Parameterization #Hyperparameter Transfer #Unified Generation

2026년 2월 25일

[논문리뷰] MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

이 논문은 기존 분자 그래프 생성 모델, 특히 그래프 확산 모델 이 겪는 낮은 화학적 유효성(validity)과 구조적 다양성(novelty) 부족 문제를 해결하여, 1D 시퀀스 기반 모델의 성능을 뛰어넘는 새로운 분자 그래프 생성 프레임워크 MolHIT 을 제안하는 것을 목표로 합니다.

#Review #Molecular Generation #Graph Diffusion Models #Hierarchical Diffusion #Discrete Diffusion #Atom Encoding #Drug Discovery #Material Science

2026년 2월 25일

[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum

본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Ψ-Samplers #Predictor-Corrector #Language Modeling #Image Generation #Curriculum Learning #Efficient Training

2026년 2월 24일

[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Autonomous Driving #Vision-Language-Action Models #Discrete Diffusion #Reflection Mechanism #Trajectory Generation #Safety Constraints #Imitation Learning

2025년 9월 26일

[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies

본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Discrete Diffusion #Action Decoding #Transformer #Robot Control #Masked Modeling #Adaptive Decoding #Reinforcement Learning

2025년 8월 28일

[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향 과 추론 비효율성 을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다.

#Review #Diffusion Models #Language Models #Code Generation #Non-Autoregressive Inference #High-Speed Inference #Discrete Diffusion #LLM Inference

2025년 8월 6일

[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation

본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.

#Review #Discrete Diffusion #Video Generation #Metric Path #Long Video Generation #Asynchronous Scheduling #Text-to-Video #Multimodal Generation

2025년 10월 29일

[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding

본 논문은 다양한 양상의 데이터(텍스트, 이미지)를 처리할 수 있는 옴니(Omni) 형태의 멀티모달 생성 및 이해 모델 인 Lumina-DiMOO를 제안합니다.

#Review #Multi-modal LLM #Discrete Diffusion #Image Generation #Image Understanding #Omni-modal #Interactive Retouching #Generative AI #Reinforcement Learning

2025년 10월 9일