#Cross-Attention

16개의 포스트

[논문리뷰] RaysUp: Ultra-light Universal Feature Upsampling via Geometry-Aware Ray Representation

본 논문은 현대 컴퓨터 비전의 핵심인 VFM이 가지는 고해상도 정보 부족 문제를 해결하기 위해 RaysUp을 제안한다 . 기존의 feature upsampling 방식들은 고정된 2D 인접 영역에 의존하거나 특정 모델에 종속되어 재학습이 필요한 등 범용성과 효율성 측면에서 한계가 있다.

#Review #Feature Upsampling #Vision Foundation Models #Ray Representation #Geometry-Aware #Cross-Attention #3D Geometric Priors

2026년 6월 29일

[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning

본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.

#Review #Context Compression #Long-Context Reasoning #Large Language Models #Fine-Tuning #Cross-Attention #Code Reasoning #Cross-Family Generalization #Two-Stage Training

2026년 6월 1일

[논문리뷰] ReactiveGWM: Steering NPC in Reactive Game World Models

본 논문은 기존의 Game World Models가 NPC를 단순한 배경 요소로 취급하여 상호작용이 결여된 정적인 비디오 렌더러에 머물러 있는 문제를 해결하고자 합니다.

#Review #Game World Models #NPC #Controllable Video Generation #Diffusion Models #Strategy Transfer #Cross-Attention #Interaction Logic

2026년 5월 17일

[논문리뷰] Steerable Visual Representations

저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .

#Review #Steerable Visual Representations #Vision Transformers #Early Fusion #Cross-Attention #Text-Conditioned Vision #Representational Quality #Zero-Shot Generalization

2026년 4월 2일

[논문리뷰] VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

기존의 Large Vision-Language Models (LVLMs) 효율성 개선 접근 방식은 주로 visual token reduction에 기반한다.

#Review #LVLM Efficiency #Sparse Interaction #Cross-Attention #Self-Attention #Adaptive Inference #Visual Feature Refinement #Computational Cost Reduction

2026년 3월 24일

[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation

기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.

#Review #Video-Audio Generation #Diffusion Transformer #Multimodal AI #Lip Synchronization #Open Source #Data Curation #Dual-Tower Architecture #Cross-Attention

2026년 2월 9일

[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

본 논문은 텍스트-투-이미지 확산 모델의 개념 삭제(concept erasure) 방법들이 텍스트 프롬프트 외의 다른 입력 양식(모달리티)에 대해 얼마나 취약한지 평가하고, 이러한 취약점을 개선할 수 있는 새로운 추론 시간 방어 메커니즘을 제안하는 것을 목표로 합니다.

#Review #Diffusion Models #Concept Erasure #Multimodal Evaluation #Adversarial Attacks #Robustness #Textual Inversion #Latent Inversion #Cross-Attention

2026년 1월 5일

[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

본 논문은 기존 텍스트 전용 또는 궤적 기반 이미지-투-비디오(I2V) 생성 모델의 한계를 극복하고, 더욱 풍부하고 사용자 지향적인 '프롬프트 가능한 월드 이벤트' 시뮬레이션을 가능하게 하는 것을 목표로 합니다.

#Review #World Models #Video Generation #Multimodal Control #Trajectory Guidance #Reference Images #Promptable Events #Cross-Attention #Diffusion Models

2025년 12월 18일

[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

Vision-Language Model (VLM)의 견고성과 성능 간의 상충 관계를 해결하고, 특히 함수어(function words) 가 교차-모달 적대적 공격에 대한 VLM의 취약성을 유발한다는 가설을 검증하고자 합니다.

#Review #Vision-Language Models #Adversarial Robustness #Function Words #Cross-Attention #Adversarial Attacks #Differential Attention #Vision-Language Alignment

2025년 12월 10일

[논문리뷰] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation

본 논문은 기존 VLA 모델이 겪는 공간-시간적 불연속성(spatiotemporally discontinuous) 및 미세한 제어 부족 문제를 해결하여, 로봇 조작을 위한 공간-시간적으로 일관성 있는(spatiotemporally coherent) VLA 모델인 VLA-4D 를 제안합니다.

#Review #Vision-Language-Action Models #Robotic Manipulation #SpatioTemporal Coherence #4D Awareness #Visual Representation #Action Representation #Cross-Attention

2025년 11월 23일

[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item Detection

X-ray 보안 이미지에서 금지 품목 탐지 모델을 훈련하기 위한 데이터 부족 문제 와 기존 합성 데이터 생성 방법론의 노동 집약적인 전처리 단계(예: 전경 추출) 를 해결하는 것이 주 목표입니다. 추가적인 수작업 없이 고품질의 X-ray 보안 이미지를 합성하는 효율적인 원스텝 파이프라인을 제안하고자 합니다.

#Review #X-ray Security #Synthetic Data Generation #Diffusion Models #Object Detection #Cross-Attention #Image Inpainting #Data Augmentation

2025년 11월 23일

[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation

본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.

#Review #Personalized Video Generation #Diffusion Transformer #Identity Preservation #Video Synthesis #Adapter Networks #Facial Recognition #Cross-Attention

2025년 9월 22일

[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection

본 논문은 자동차 손상 평가와 같은 미세하고 컨텍스트에 의존적인 시나리오 에서 객체 탐지의 한계를 극복하는 것을 목표로 합니다. 특히, 기존 DiffusionDet 모델이 로컬 특징 조건화 에만 의존하여 발생하는 탐지 오류를 해결하고, 전역 장면 컨텍스트 를 활용하여 고정밀 탐지 성능을 달성하고자 합니다.

#Review #Object Detection #Diffusion Model #Global Scene Context #Context-Aware Fusion #Fine-grained Detection #Automotive Damage Assessment #Generative Denoising #Cross-Attention

2025년 9월 3일

[논문리뷰] Personalized Safety Alignment for Text-to-Image Diffusion Models

현재 텍스트-투-이미지(T2I) 확산 모델의 안전 메커니즘이 사용자의 다양한 연령, 정신 건강, 개인 신념 등의 선호도를 고려하지 않고 일률적인 기준을 적용하여 발생하는 한계를 해결하고자 합니다.

#Review #Personalized Safety Alignment #Text-to-Image Diffusion Models #DPO #User Preferences #Content Moderation #Generative AI #Cross-Attention #Safety Alignment

2025년 8월 5일

[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video

본 논문은 사전 학습된 텍스트-오디오(T2A) 모델 을 동결시킨 상태에서, 비디오 가이드 Foley 음향 합성 을 위한 경량의 접근 방식을 제안합니다.

#Review #Text-to-Audio #Video-to-Audio #Foley Synthesis #Diffusion Models #Cross-Attention #Frozen Backbones #Video Embeddings #Rotary Position Embeddings

2025년 10월 27일

[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction

본 논문은 텍스트로부터 사운딩 비디오를 생성하는 Text-to-Sounding Video (T2SV) 연구에서 발생하는 두 가지 근본적인 문제를 해결하고자 합니다.

#Review #Text-to-Sounding Video Generation #Diffusion Models #Dual-tower Architecture #Cross-modal Fusion #Visual Grounding #Hierarchical Captioning #Cross-Attention

2025년 10월 10일