[논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning본 논문은 Large Language Models (LLMs)의 long-context inference에서 발생하는 memory 및 compute cost 증가 문제를 해결하고자 한다.#Review#Context Compression#Long-Context Reasoning#Large Language Models#Fine-Tuning#Cross-Attention#Code Reasoning#Cross-Family Generalization#Two-Stage Training2026년 6월 1일댓글 수 로딩 중
[논문리뷰] ReactiveGWM: Steering NPC in Reactive Game World Models본 논문은 기존의 Game World Models가 NPC를 단순한 배경 요소로 취급하여 상호작용이 결여된 정적인 비디오 렌더러에 머물러 있는 문제를 해결하고자 합니다.#Review#Game World Models#NPC#Controllable Video Generation#Diffusion Models#Strategy Transfer#Cross-Attention#Interaction Logic2026년 5월 17일댓글 수 로딩 중
[논문리뷰] Steerable Visual Representations저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .#Review#Steerable Visual Representations#Vision Transformers#Early Fusion#Cross-Attention#Text-Conditioned Vision#Representational Quality#Zero-Shot Generalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions기존의 Large Vision-Language Models (LVLMs) 효율성 개선 접근 방식은 주로 visual token reduction에 기반한다.#Review#LVLM Efficiency#Sparse Interaction#Cross-Attention#Self-Attention#Adaptive Inference#Visual Feature Refinement#Computational Cost Reduction2026년 3월 24일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models본 논문은 텍스트-투-이미지 확산 모델의 개념 삭제(concept erasure) 방법들이 텍스트 프롬프트 외의 다른 입력 양식(모달리티)에 대해 얼마나 취약한지 평가하고, 이러한 취약점을 개선할 수 있는 새로운 추론 시간 방어 메커니즘을 제안하는 것을 목표로 합니다.#Review#Diffusion Models#Concept Erasure#Multimodal Evaluation#Adversarial Attacks#Robustness#Textual Inversion#Latent Inversion#Cross-Attention2026년 1월 5일댓글 수 로딩 중
[논문리뷰] The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text본 논문은 기존 텍스트 전용 또는 궤적 기반 이미지-투-비디오(I2V) 생성 모델의 한계를 극복하고, 더욱 풍부하고 사용자 지향적인 '프롬프트 가능한 월드 이벤트' 시뮬레이션을 가능하게 하는 것을 목표로 합니다.#Review#World Models#Video Generation#Multimodal Control#Trajectory Guidance#Reference Images#Promptable Events#Cross-Attention#Diffusion Models2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language ModelsVision-Language Model (VLM)의 견고성과 성능 간의 상충 관계를 해결하고, 특히 함수어(function words) 가 교차-모달 적대적 공격에 대한 VLM의 취약성을 유발한다는 가설을 검증하고자 합니다.#Review#Vision-Language Models#Adversarial Robustness#Function Words#Cross-Attention#Adversarial Attacks#Differential Attention#Vision-Language Alignment2025년 12월 10일댓글 수 로딩 중
[논문리뷰] VLA-4D: Embedding 4D Awareness into Vision-Language-Action Models for SpatioTemporally Coherent Robotic Manipulation본 논문은 기존 VLA 모델이 겪는 공간-시간적 불연속성(spatiotemporally discontinuous) 및 미세한 제어 부족 문제를 해결하여, 로봇 조작을 위한 공간-시간적으로 일관성 있는(spatiotemporally coherent) VLA 모델인 VLA-4D 를 제안합니다.#Review#Vision-Language-Action Models#Robotic Manipulation#SpatioTemporal Coherence#4D Awareness#Visual Representation#Action Representation#Cross-Attention2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item DetectionX-ray 보안 이미지에서 금지 품목 탐지 모델을 훈련하기 위한 데이터 부족 문제 와 기존 합성 데이터 생성 방법론의 노동 집약적인 전처리 단계(예: 전경 추출) 를 해결하는 것이 주 목표입니다. 추가적인 수작업 없이 고품질의 X-ray 보안 이미지를 합성하는 효율적인 원스텝 파이프라인을 제안하고자 합니다.#Review#X-ray Security#Synthetic Data Generation#Diffusion Models#Object Detection#Cross-Attention#Image Inpainting#Data Augmentation2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Lynx: Towards High-Fidelity Personalized Video Generation본 논문은 단일 입력 이미지로부터 고품질의 개인화된 비디오를 합성 하는 모델인 Lynx를 제시하며, 특히 높은 신원 보존 을 목표로 합니다. 기존 비디오 생성 모델의 한계인 대상의 신원 불일치 문제를 해결하고, 시간적 일관성과 시각적 사실성을 유지하는 비디오 생성을 목표로 합니다.#Review#Personalized Video Generation#Diffusion Transformer#Identity Preservation#Video Synthesis#Adapter Networks#Facial Recognition#Cross-Attention2025년 9월 22일댓글 수 로딩 중
[논문리뷰] C-DiffDet+: Fusing Global Scene Context with Generative Denoising for High-Fidelity Object Detection본 논문은 자동차 손상 평가와 같은 미세하고 컨텍스트에 의존적인 시나리오 에서 객체 탐지의 한계를 극복하는 것을 목표로 합니다. 특히, 기존 DiffusionDet 모델이 로컬 특징 조건화 에만 의존하여 발생하는 탐지 오류를 해결하고, 전역 장면 컨텍스트 를 활용하여 고정밀 탐지 성능을 달성하고자 합니다.#Review#Object Detection#Diffusion Model#Global Scene Context#Context-Aware Fusion#Fine-grained Detection#Automotive Damage Assessment#Generative Denoising#Cross-Attention2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Personalized Safety Alignment for Text-to-Image Diffusion Models현재 텍스트-투-이미지(T2I) 확산 모델의 안전 메커니즘이 사용자의 다양한 연령, 정신 건강, 개인 신념 등의 선호도를 고려하지 않고 일률적인 기준을 적용하여 발생하는 한계를 해결하고자 합니다.#Review#Personalized Safety Alignment#Text-to-Image Diffusion Models#DPO#User Preferences#Content Moderation#Generative AI#Cross-Attention#Safety Alignment2025년 8월 5일댓글 수 로딩 중
[논문리뷰] Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction본 논문은 텍스트로부터 사운딩 비디오를 생성하는 Text-to-Sounding Video (T2SV) 연구에서 발생하는 두 가지 근본적인 문제를 해결하고자 합니다.#Review#Text-to-Sounding Video Generation#Diffusion Models#Dual-tower Architecture#Cross-modal Fusion#Visual Grounding#Hierarchical Captioning#Cross-Attention2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Foley Control: Aligning a Frozen Latent Text-to-Audio Model to Video본 논문은 사전 학습된 텍스트-오디오(T2A) 모델 을 동결시킨 상태에서, 비디오 가이드 Foley 음향 합성 을 위한 경량의 접근 방식을 제안합니다.#Review#Text-to-Audio#Video-to-Audio#Foley Synthesis#Diffusion Models#Cross-Attention#Frozen Backbones#Video Embeddings#Rotary Position Embeddings2025년 10월 27일댓글 수 로딩 중