[논문리뷰] MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and GenerationarXiv에 게시된 'MMaDA-VLA: Large Diffusion Vision-Language-Action Model with Unified Multi-Modal Instruction and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Discrete Diffusion#Multi-modal Generation#Robotic Manipulation#Action Chunking#World Model#Hybrid Attention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing modelarXiv에 게시된 'SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal Generation#Video-Audio Synthesis#Video Inpainting#Video Editing#Diffusion Transformer#MMLM#Super-resolution#Frame Interpolation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] OmniNWM: Omniscient Driving Navigation World ModelsZhujin Liang이 arXiv에 게시한 'OmniNWM: Omniscient Driving Navigation World Models' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Driving#World Models#Multi-modal Generation#3D Occupancy#Plücker Ray-maps#Action Control#Dense Rewards#Long-term Forecasting2025년 10월 23일댓글 수 로딩 중
[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual ReferencesShiyun Lang이 arXiv에 게시한 'MultiRef: Controllable Image Generation with Multiple Visual References' 논문에 대한 자세한 리뷰입니다.#Review#Controllable Image Generation#Multi-modal Generation#Visual References#Image-to-Image#Benchmark#Dataset#MLLM-as-a-Judge2025년 8월 20일댓글 수 로딩 중