#Vision-centric AI

1개의 포스트

[논문리뷰] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models

현재 Multimodal Large Language Models (MLLMs)이 겪는 텍스트 중심 추론의 한계와 복잡한 장기 시각 중심 태스크에서의 비효율성을 해결하고, 확산 모델을 활용한 새로운 '생성형 멀티모달 추론' 패러다임을 확립하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Diffusion Models #Image-to-Image Generation #Vision-centric AI #Generative AI #Spatial Planning #Constraint Satisfaction

2026년 1월 1일