[논문리뷰] When Vision Speaks for Sound본 논문은 최신 Video-LLMs가 오디오 이해 능력을 갖춘 것처럼 보이지만, 실제로는 오디오를 검증하지 않고 시각적 단서에서 사운드를 추론하거나 할루시네이션(Hallucination)을 일으키는 Clever Hans effect에 빠져 있음을 지적합니다 .#Review#Video-LLMs#Audio-Visual Grounding#Clever Hans Effect#Intervention-Driven Diagnostics#Direct Preference Optimization (DPO)#Multimodal Alignment2026년 5월 19일댓글 수 로딩 중
[논문리뷰] Semantic Generative Tuning for Unified Multimodal Models본 논문은 현대 UMM들이 이해와 생성이라는 두 핵심 과업을 분리된 최적화 경로로 학습함으로써 발생하는 표현적 불일치(Representational misalignment) 문제를 해결하고자 합니다.#Review#Unified Multimodal Models#Generative Tuning#Image Segmentation#Multimodal Alignment#Semantic Proxy#Representation Learning2026년 5월 19일댓글 수 로딩 중
[논문리뷰] OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer기존 비디오 커스터마이징 방법론들이 레퍼런스 비디오의 풍부한 시공간 정보를 충분히 활용하지 못하여, 유연성과 일반화가 제한되는 문제를 해결하고자 합니다.#Review#Video Transfer#Diffusion Models#Spatio-temporal Learning#Multimodal Alignment#Appearance Consistency#Temporal Control#Video Generation2026년 1월 20일댓글 수 로딩 중
[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.#Review#Unified Vision-Language Models#Reinforcement Learning#Multimodal Alignment#Pairwise Training#Group Relative Policy Optimization#Data Augmentation#Text-to-Image Generation#Visual Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] ProCLIP: Progressive Vision-Language Alignment via LLM-based Embedder기존 CLIP 텍스트 인코더의 77토큰 길이 제한 , 영어 전용 지원, 미흡한 세분화된 의미 이해 능력이라는 한계를 해결하는 것이 목표입니다.#Review#Vision-Language Models#CLIP#LLM-based Embedder#Knowledge Distillation#Contrastive Learning#Curriculum Learning#Multimodal Alignment#Progressive Alignment2025년 10월 22일댓글 수 로딩 중
[논문리뷰] IMG: Calibrating Diffusion Models via Implicit Multimodal Guidance확산 모델(Diffusion Models)에서 생성된 이미지와 입력 프롬프트 간의 정확한 멀티모달 정렬(multimodal alignment) 부족 문제를 해결합니다.#Review#Diffusion Models#Multimodal Alignment#MLLM#Image Re-generation#Preference Learning#Implicit Guidance#Text-to-Image2025년 10월 1일댓글 수 로딩 중