본문으로 건너뛰기

#Multimodal Learning

45개의 포스트

[논문리뷰] Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

댓글 수 로딩 중

[논문리뷰] LatentUMM: Dual Latent Alignment for Unified Multimodal Models

댓글 수 로딩 중

[논문리뷰] DocAtlas: Multilingual Document Understanding Across 80+ Languages

댓글 수 로딩 중

[논문리뷰] UniMesh: Unifying 3D Mesh Understanding and Generation

댓글 수 로딩 중

[논문리뷰] MedGemma 1.5 Technical Report

댓글 수 로딩 중

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

댓글 수 로딩 중

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

댓글 수 로딩 중

[논문리뷰] Unified Personalized Reward Model for Vision Generation

댓글 수 로딩 중

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

댓글 수 로딩 중

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

댓글 수 로딩 중

[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

댓글 수 로딩 중

[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

댓글 수 로딩 중

[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

댓글 수 로딩 중

[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

댓글 수 로딩 중

[논문리뷰] Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

댓글 수 로딩 중

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

댓글 수 로딩 중

[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

댓글 수 로딩 중

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

댓글 수 로딩 중

[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents

댓글 수 로딩 중

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

댓글 수 로딩 중

[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

댓글 수 로딩 중

[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation

댓글 수 로딩 중

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

댓글 수 로딩 중

[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

댓글 수 로딩 중

[논문리뷰] Adapting Vision-Language Models Without Labels: A Comprehensive Survey

댓글 수 로딩 중

[논문리뷰] Multimodal Referring Segmentation: A Survey

댓글 수 로딩 중

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

댓글 수 로딩 중

[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

댓글 수 로딩 중

[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

댓글 수 로딩 중

[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

댓글 수 로딩 중

[논문리뷰] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

댓글 수 로딩 중

[논문리뷰] Unified Reinforcement and Imitation Learning for Vision-Language Models

댓글 수 로딩 중