#Scale-and-Add

1개의 포스트

[논문리뷰] LoomVideo: Unifying Multimodal Inputs into Video Generation and Editing

본 연구는 기존 Unified Video Generation 모델들이 대규모 파라미터(13B 이상)에 의존하고, 비디오 편집 시 소스 토큰 연결로 인해 연산 비용이 기하급수적으로 증가하는 문제를 해결하고자 합니다.

#Review #Video Generation #Video Editing #Multimodal Large Language Model (MLLM)#Diffusion Transformer (DiT)#Deepstack Injection #Scale-and-Add

2026년 6월 4일