[논문리뷰] Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning본 논문은 기존 자율주행 시스템이 행동 조건부 동역학(Action-conditioned dynamics)을 명시적으로 모델링하지 못하고, 단순한 Direct State-to-Action Mapping에 의존한다는 근본적인 한계를 해결하고자 한다 .#Review#Autonomous Driving#World Model#Discrete Diffusion#Token Editing#Policy Learning#Counterfactual Reasoning2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation본 논문은 UDM에서 사용되는 Bridge Plug-in 파라미터화가 표준적인 노이즈 제거 목표(denoising posterior)를 최적화하지 못한다는 구조적 불일치 문제를 해결합니다.#Review#Uniform Diffusion Models#Leave-one-out#Denoiser#Absorbing State Reformulation#Discrete Diffusion#Bridge Plug-in2026년 5월 28일댓글 수 로딩 중
[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation기존 VLA 모델들은 hierarchical 구조나 autoregressive 패러다임에 의존함으로써 발생하는 아키텍처 오버헤드, 장기적 시간 일관성 결여, 그리고 환경 역학(environment dynamics)을 파악하는 명시적 메커니즘 부족이라는 한계에 직면해 있습니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model본 논문은 멀티모달 이해 및 생성 분야에서 확산 언어 모델의 잠재력을 탐구하며, 텍스트와 이미지라는 근본적으로 다른 확산 역학을 통합하는 데 따르는 비효율성과 고정된 출력 길이의 한계를 해결하고자 합니다.#Review#Omni Diffusion Model#Multimodal AI#Length Adaptation#Mixture of Diffusion#Discrete Diffusion#Continuous Diffusion#Text-to-Image Generation2026년 3월 2일댓글 수 로딩 중
[논문리뷰] The Design Space of Tri-Modal Masked Diffusion Models본 논문은 텍스트, 이미지-텍스트, 오디오-텍스트 데이터에 대해 처음부터 사전 훈련된 최초의 삼중 모달(tri-modal) 마스크드 확산 모델(MDM) 을 소개합니다.#Review#Masked Diffusion Models#Multimodal AI#Scaling Laws#Discrete Diffusion#SDE Parameterization#Hyperparameter Transfer#Unified Generation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models이 논문은 기존 분자 그래프 생성 모델, 특히 그래프 확산 모델 이 겪는 낮은 화학적 유효성(validity)과 구조적 다양성(novelty) 부족 문제를 해결하여, 1D 시퀀스 기반 모델의 성능을 뛰어넘는 새로운 분자 그래프 생성 프레임워크 MolHIT 을 제안하는 것을 목표로 합니다.#Review#Molecular Generation#Graph Diffusion Models#Hierarchical Diffusion#Discrete Diffusion#Atom Encoding#Drug Discovery#Material Science2026년 2월 25일댓글 수 로딩 중
[논문리뷰] The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum본 논문은 균일 상태 이산 확산 모델(Uniform-State Discrete Diffusion Models, USDMs) 의 샘플링 품질이 스텝 수 증가 시 정체되는 문제점을 해결하는 것을 목표로 합니다.#Review#Discrete Diffusion#Ψ-Samplers#Predictor-Corrector#Language Modeling#Image Generation#Curriculum Learning#Efficient Training2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving본 논문은 자율주행 시스템에서 기존 모방 학습 기반 VLA(Vision-Language-Action) 모델 이 물리적 규칙 및 안전 제약 조건을 내재적으로 인코딩하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Autonomous Driving#Vision-Language-Action Models#Discrete Diffusion#Reflection Mechanism#Trajectory Generation#Safety Constraints#Imitation Learning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies본 논문은 기존 Vision-Language-Action (VLA) 모델 디코더의 한계(고정된 순서의 autoregressive 생성 또는 continuous diffusion /flow matching 헤드의 백본 분리)를 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Action Decoding#Transformer#Robot Control#Masked Modeling#Adaptive Decoding#Reinforcement Learning2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference본 논문은 이산 상태 확산 모델(discrete-state diffusion models)의 고질적인 문제인 토큰-순서 모델링의 유도 편향 과 추론 비효율성 을 해결하여, 코드 생성 대규모 언어 모델(LLM)의 추론 속도를 혁신적으로 향상시키면서도 경쟁력 있는 품질을 유지하는 것을 목표로 합니다.#Review#Diffusion Models#Language Models#Code Generation#Non-Autoregressive Inference#High-Speed Inference#Discrete Diffusion#LLM Inference2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Uniform Discrete Diffusion with Metric Path for Video Generation본 논문은 연속 공간(continuous-space) 비디오 생성 모델과 비교하여 뒤처져 있던 이산 공간(discrete-space) 비디오 생성 모델의 성능 격차를 해소하는 것을 목표로 합니다.#Review#Discrete Diffusion#Video Generation#Metric Path#Long Video Generation#Asynchronous Scheduling#Text-to-Video#Multimodal Generation2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding본 논문은 다양한 양상의 데이터(텍스트, 이미지)를 처리할 수 있는 옴니(Omni) 형태의 멀티모달 생성 및 이해 모델 인 Lumina-DiMOO를 제안합니다.#Review#Multi-modal LLM#Discrete Diffusion#Image Generation#Image Understanding#Omni-modal#Interactive Retouching#Generative AI#Reinforcement Learning2025년 10월 9일댓글 수 로딩 중