본문으로 건너뛰기

#Representation Learning

28개의 포스트

[논문리뷰] Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

댓글 수 로딩 중

[논문리뷰] LatentUMM: Dual Latent Alignment for Unified Multimodal Models

댓글 수 로딩 중

[논문리뷰] What Matters for Diffusion-Friendly Latent Manifold? Prior-Aligned Autoencoders for Latent Diffusion

댓글 수 로딩 중

[논문리뷰] SciLT: Long-Tailed Classification in Scientific Image Domains

댓글 수 로딩 중

[논문리뷰] Utonia: Toward One Encoder for All Point Clouds

댓글 수 로딩 중

[논문리뷰] InfoNCE Induces Gaussian Distribution

댓글 수 로딩 중

[논문리뷰] MAEB: Massive Audio Embedding Benchmark

댓글 수 로딩 중

[논문리뷰] Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models

댓글 수 로딩 중

[논문리뷰] KV-Embedding: Training-free Text Embedding via Internal KV Re-routing in Decoder-only LLMs

댓글 수 로딩 중

[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations

댓글 수 로딩 중

[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training

댓글 수 로딩 중

[논문리뷰] DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

댓글 수 로딩 중

[논문리뷰] FedRE: A Representation Entanglement Framework for Model-Heterogeneous Federated Learning

댓글 수 로딩 중

[논문리뷰] Latent Zoning Network: A Unified Principle for Generative Modeling, Representation Learning, and Classification

댓글 수 로딩 중

[논문리뷰] UniME-V2: MLLM-as-a-Judge for Universal Multimodal Embedding Learning

댓글 수 로딩 중

[논문리뷰] Spatial Forcing: Implicit Spatial Representation Alignment for Vision-language-action Model

댓글 수 로딩 중

[논문리뷰] Advancing End-to-End Pixel Space Generative Modeling via Self-supervised Pre-training

댓글 수 로딩 중