[논문리뷰] UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers비디오 Diffusion Transformer(DiT) 모델이 학습 길이 이상으로 비디오를 생성할 때 발생하는 주기적 콘텐츠 반복 과 전반적인 품질 저하 라는 두 가지 실패 모드를 해결하는 것을 목표로 합니다.#Review#Video Diffusion Transformers#Length Extrapolation#Attention Mechanism#Attention Dispersion#Periodic Content Repetition#Quality Degradation#Training-free Method#Plug-and-play2025년 11월 25일댓글 수 로딩 중
[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.#Review#Vision-Language Models#Object Grounding#Fine-grained Perception#Hybrid Region Encoder#Plug-and-play#Two-stage Training#Visual Reasoning2025년 10월 2일댓글 수 로딩 중