#Plug-and-play

2개의 포스트

[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.

#Review #Video Diffusion Transformers #Length Extrapolation #Attention Mechanism #Attention Dispersion #Periodic Content Repetition #Quality Degradation #Training-free Method #Plug-and-play

2025년 11월 25일

[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Object Grounding #Fine-grained Perception #Hybrid Region Encoder #Plug-and-play #Two-stage Training #Visual Reasoning

2025년 10월 2일