#Cross-Modal Interaction

2개의 포스트

[논문리뷰] STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

본 논문은 기존 다중 모달 객체 재식별(ReID) 방법론들이 직면한 배경 노이즈 증가 및 식별 특징 손실 문제(하드 토큰 필터링 또는 단순 융합 전략으로 인해 발생)를 해결하는 것을 목표로 합니다.

#Review #Multi-modal Re-Identification #Segmentation-Guided Feature Modulation #Token Modulation #Cross-Modal Interaction #Hypergraph Neural Networks #Object ReID #Transformer #SAM

2026년 3월 5일

[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions

기존 오픈소스 오디오-비디오 생성 모델이 겪는 부정확한 립싱크, 일관성 부족, 모달리티 비동기화 문제를 해결하고자 합니다. 본 연구는 UniAVGen 이라는 통합 프레임워크를 통해 인간 오디오 생성 에 중점을 두어, 정확한 시공간적 동기화 및 의미론적 일관성을 갖춘 오디오-비디오를 공동으로 생성하는 것을 목표로 합니다.

#Review #Joint Audio-Video Generation #Cross-Modal Interaction #Diffusion Transformer #Face-Aware Modulation #Classifier-Free Guidance #Multimodal AI #Generative Models

2025년 11월 9일