[논문리뷰] DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models현재 Multimodal Large Language Models (MLLMs)이 겪는 텍스트 중심 추론의 한계와 복잡한 장기 시각 중심 태스크에서의 비효율성을 해결하고, 확산 모델을 활용한 새로운 '생성형 멀티모달 추론' 패러다임을 확립하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Diffusion Models#Image-to-Image Generation#Vision-centric AI#Generative AI#Spatial Planning#Constraint Satisfaction2026년 1월 1일댓글 수 로딩 중
[논문리뷰] MolmoAct: Action Reasoning Models that can Reason in Space기존 로봇 파운데이션 모델들이 지각과 명령을 직접 제어로 매핑하여 적응성, 일반화, 의미론적 기반이 부족한 문제를 해결하는 것을 목표로 합니다.#Review#Robotics#Action Reasoning#Vision-Language Models#Spatial Planning#Depth Perception#Trajectory Generation#Explainable AI2025년 8월 12일댓글 수 로딩 중