[논문리뷰] Steerable Visual Representations저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .#Review#Steerable Visual Representations#Vision Transformers#Early Fusion#Cross-Attention#Text-Conditioned Vision#Representational Quality#Zero-Shot Generalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactionsGeorgios Tzimiropoulos이 arXiv에 게시한 'VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions' 논문에 대한 자세한 리뷰입니다.#Review#LVLM Efficiency#Sparse Interaction#Cross-Attention#Self-Attention#Adaptive Inference#Visual Feature Refinement#Computational Cost Reduction2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio GenerationarXiv에 게시된 'MOVA: Towards Scalable and Synchronized Video-Audio Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion ModelsJun-Cheng Chen이 arXiv에 게시한 'M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Concept Erasure#Multimodal Evaluation#Adversarial Attacks#Robustness#Textual Inversion#Latent Inversion#Cross-Attention2026년 1월 5일댓글 수 로딩 중
[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and TextarXiv에 게시된 'The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Video Generation#Multimodal Control#Trajectory Guidance#Reference Images#Promptable Events#Cross-Attention#Diffusion Models2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language ModelsarXiv에 게시된 'Pay Less Attention to Function Words for Free Robustness of Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Adversarial Robustness#Function Words#Cross-Attention#Adversarial Attacks#Differential Attention#Vision-Language Alignment2025년 12월 10일댓글 수 로딩 중
[논문리뷰] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic ManipulationGim Hee Lee이 arXiv에 게시한 'VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Robotic Manipulation#SpatioTemporal Coherence#4D Awareness#Visual Representation#Action Representation#Cross-Attention2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item DetectionRenshuai Tao이 arXiv에 게시한 'Taming Generative Synthetic Data for X-ray Prohibited Item Detection' 논문에 대한 자세한 리뷰입니다.#Review#X-ray Security#Synthetic Data Generation#Diffusion Models#Object Detection#Cross-Attention#Image Inpainting#Data Augmentation2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to VideoarXiv에 게시된 'Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Audio#Video-to-Audio#Foley Synthesis#Diffusion Models#Cross-Attention#Frozen Backbones#Video Embeddings#Rotary Position Embeddings2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and InteractionarXiv에 게시된 'Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Sounding Video Generation#Diffusion Models#Dual-tower Architecture#Cross-modal Fusion#Visual Grounding#Hierarchical Captioning#Cross-Attention2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Lynx: Towards High-Fidelity Personalized Video GenerationLinjie Luo이 arXiv에 게시한 'Lynx: Towards High-Fidelity Personalized Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Personalized Video Generation#Diffusion Transformer#Identity Preservation#Video Synthesis#Adapter Networks#Facial Recognition#Cross-Attention2025년 9월 22일댓글 수 로딩 중
[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object DetectionVito Renó이 arXiv에 게시한 'C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection' 논문에 대한 자세한 리뷰입니다.#Review#Object Detection#Diffusion Model#Global Scene Context#Context-Aware Fusion#Fine-grained Detection#Automotive Damage Assessment#Generative Denoising#Cross-Attention2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Personalized Safety Alignment for Text-to-Image Diffusion ModelsKaidong Yu이 arXiv에 게시한 'Personalized Safety Alignment for Text-to-Image Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Personalized Safety Alignment#Text-to-Image Diffusion Models#DPO#User Preferences#Content Moderation#Generative AI#Cross-Attention#Safety Alignment2025년 8월 5일댓글 수 로딩 중