본문으로 건너뛰기

#Cross-modal Alignment

8개의 포스트

[논문리뷰] PlatonicNav: Unveiling Semantic Correspondence in Navigation with Platonic Topological Maps

댓글 수 로딩 중

[논문리뷰] LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

댓글 수 로딩 중

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

댓글 수 로딩 중

[논문리뷰] Multimodal Reasoning for Science: Technical Report and 1st Place Solution to the ICML 2025 SeePhys Challenge

댓글 수 로딩 중

[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

댓글 수 로딩 중

[논문리뷰] Discrete Diffusion Models with MLLMs for Unified Medical Multimodal Generation

댓글 수 로딩 중