#Cross-Modal Fusion

3개의 포스트

[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation

기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.

#Review #Diffusion Transformer #Multimodal Face Generation #Cross-Modal Fusion #RoPE Attention #Controlled Generation

2026년 3월 31일

[논문리뷰] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings

음악에 의해 영감을 받은 그림의 지각적 일관성을 평가하는 어려운 과제를 해결하는 것을 목표로 합니다. 기존 감정 기반 접근 방식의 한계(불정확성 및 감정 외 다른 지각적 단서 간과)를 극복하고, 음악과 시각 예술 간의 지각적 일관성을 직접적으로 모델링하는 새로운 프레임워크를 제안하고자 합니다.

#Review #Music-Painting Cross-Modal #Perceptual Assessment #Modality-Adaptive Normalization #Direct Preference Optimization #Cross-Modal Fusion #Dataset Annotation #Affective Computing

2025년 11월 10일

[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction

기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.

#Review #Semantic 3D Reconstruction #Instance Grounding #Geometry Transformer #Multi-view Consistency #Scene Understanding #InsScene-15K #Vision-Language Models #Cross-Modal Fusion

2025년 10월 28일