[논문리뷰] MATRIX: Mask Track Alignment for Interaction-aware Video Generation본 논문은 비디오 Diffusion Transformers (DiTs)가 다중 인스턴스 또는 주체-객체 상호작용을 어떻게 내부적으로 표현하는지 분석하고, 상호작용 인지 비디오 생성 능력을 향상시키는 것을 목표로 합니다.#Review#Video Generation#Diffusion Transformers#Human-Object Interaction#Attention Alignment#Mask Tracking#Semantic Grounding#Semantic Propagation#Text-to-Video2025년 10월 9일댓글 수 로딩 중