#Sparse Parameterization

1개의 포스트

[논문리뷰] Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models

본 논문은 Masked Diffusion Models (MDMs)의 주요 비효율성, 즉 KV 캐싱 미지원 과 불필요한 마스크 토큰 처리 로 인한 느린 추론 속도 문제를 해결하고자 합니다. 특히, 멀티모달 태스크 전반에서 성능 저하 없이 효율성을 크게 향상시키는 새로운 모델링 프레임워크 를 제안하는 것이 목표입니다.

#Review #Discrete Diffusion Models #Multimodal Models #Sparse Parameterization #KV Caching #Token Truncation #Image Generation #Image Editing #Visual Reasoning

2025년 12월 16일