[논문리뷰] MMFace-DiT: A Dual-Stream Diffusion Transformer for High-Fidelity Multimodal Face Generation기존의 다중 모달 얼굴 생성 모델들은 주로 GAN 기반의 복잡한 네트워크 구조를 가지거나, ControlNet과 같이 기존 사전 학습된 모델에 외부 모듈을 부착하는 방식을 사용하여 구조적 한계를 가진다.#Review#Diffusion Transformer#Multimodal Face Generation#Cross-Modal Fusion#RoPE Attention#Controlled Generation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MPJudge: Towards Perceptual Assessment of Music-Induced Paintings음악에 의해 영감을 받은 그림의 지각적 일관성을 평가하는 어려운 과제를 해결하는 것을 목표로 합니다. 기존 감정 기반 접근 방식의 한계(불정확성 및 감정 외 다른 지각적 단서 간과)를 극복하고, 음악과 시각 예술 간의 지각적 일관성을 직접적으로 모델링하는 새로운 프레임워크를 제안하고자 합니다.#Review#Music-Painting Cross-Modal#Perceptual Assessment#Modality-Adaptive Normalization#Direct Preference Optimization#Cross-Modal Fusion#Dataset Annotation#Affective Computing2025년 11월 10일댓글 수 로딩 중
[논문리뷰] IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction기존의 3D 재구성 및 고수준 의미 이해를 분리하는 단편적인 접근 방식의 한계를 극복하고, 기하학적 구조와 인스턴스 수준의 문맥적 이해를 단일 표현 으로 통합하는 Instance-Grounded Geometry Transformer (IGGT) 프레임워크를 개발하는 것이 목표입니다.#Review#Semantic 3D Reconstruction#Instance Grounding#Geometry Transformer#Multi-view Consistency#Scene Understanding#InsScene-15K#Vision-Language Models#Cross-Modal Fusion2025년 10월 28일댓글 수 로딩 중