#Multimodal Alignment

6개의 포스트

[논문리뷰] When Vision Speaks for Sound

본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .

#Review #Video-LLMs #Audio-Visual Grounding #Clever Hans Effect #Intervention-Driven Diagnostics #Direct Preference Optimization (DPO)#Multimodal Alignment

2026년 5월 19일

[논문리뷰] Semantic Generative Tuning for Unified Multimodal Models

본 논문은 현대 UMM들이 이해와 생성이라는 두 핵심 과업을 분리된 최적화 경로로 학습함으로써 발생하는 표현적 불일치(Representational misalignment) 문제를 해결하고자 합니다.

#Review #Unified Multimodal Models #Generative Tuning #Image Segmentation #Multimodal Alignment #Semantic Proxy #Representation Learning

2026년 5월 19일

[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

기존 비디오 커스터마이징 방법론들이 레퍼런스 비디오의 풍부한 시공간 정보를 충분히 활용하지 못하여, 유연성과 일반화가 제한되는 문제를 해결하고자 합니다.

#Review #Video Transfer #Diffusion Models #Spatio-temporal Learning #Multimodal Alignment #Appearance Consistency #Temporal Control #Video Generation

2026년 1월 20일

[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models

통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.

#Review #Unified Vision-Language Models #Reinforcement Learning #Multimodal Alignment #Pairwise Training #Group Relative Policy Optimization #Data Augmentation #Text-to-Image Generation #Visual Reasoning

2025년 10월 30일

[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder

기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.

#Review #Vision-Language Models #CLIP #LLM-based Embedder #Knowledge Distillation #Contrastive Learning #Curriculum Learning #Multimodal Alignment #Progressive Alignment

2025년 10월 22일

[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance

확산 모델(Diffusion Models)에서 생성된 이미지와 입력 프롬프트 간의 정확한 멀티모달 정렬(multimodal alignment) 부족 문제를 해결합니다.

#Review #Diffusion Models #Multimodal Alignment #MLLM #Image Re-generation #Preference Learning #Implicit Guidance #Text-to-Image

2025년 10월 1일