#Multi-modal Alignment

2개의 포스트

[논문리뷰] MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

IMU 신호와 비디오에서 추출된 2D 포즈 시퀀스 간의 정교한 정렬을 위한 공동 표현 학습 을 목표로 합니다.

#Review #Multi-modal Alignment #Contrastive Learning #IMU-Video Fusion #Pose Estimation #Temporal Synchronization #Human Motion Analysis #Hierarchical Learning

2026년 2월 25일

[논문리뷰] VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set

본 논문은 Vision-Language Models (VLMs)의 vision-language alignment 메커니즘 에 대한 해석 가능성 부족 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Model Interpretability #Sparse Autoencoder (SAE)#Multi-modal Alignment #Concept Learning #Hallucination Elimination #Zero-shot Classification

2025년 10월 29일