[논문리뷰] HiMu: Hierarchical Multimodal Frame Selection for Long Video Question AnsweringLong-form video question answering (VideoQA)은 확장된 시간적 맥락에 대한 추론을 요구하지만, 현재 <strong>Large Vision-Language Models (LVLMs)</strong>의 finite context windows는 전체 비디오를 원시 프레임 속도로 처리하는 것을 불가능하게 만든다.#Review#Video Question Answering#Frame Selection#Neuro-Symbolic Reasoning#Multimodal Understanding#Long Video2026년 3월 22일댓글 수 로딩 중
[논문리뷰] Helios: Real Real-Time Long Video Generation Model논문은 단일 NVIDIA H100 GPU 에서 19.5 FPS 로 실시간 분 단위 비디오를 생성하고, 기존의 안티-드리프팅(anti-drifting) 휴리스틱이나 가속화 기술 없이도 강력한 품질을 유지하는 최초의 14B 비디오 생성 모델 인 Helios를 개발하는 것을 목표로 합니다.#Review#Video Generation#Real-Time#Long Video#Diffusion Transformers#Anti-Drifting#Memory Optimization#Distillation#Autoregressive Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] SANA-Video: Efficient Video Generation with Block Linear Diffusion Transformer본 논문은 기존 비디오 생성 모델의 높은 연산 복잡성(O(N^2))과 느린 추론 속도로 인한 비효율성을 해결하여, 고해상도(720x1280), 고품질, 장시간(분 단위) 비디오를 빠르고 효율적으로 생성 하는 소형 확산 모델인 SANA-Video를 개발하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Model#Linear Attention#Transformer#Long Video#Efficient Inference#Constant Memory#Low-Cost Training#RTX Deployment2025년 9월 30일댓글 수 로딩 중