[논문리뷰] SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer본 논문은 실시간 스트리밍 Video-to-Video(V2V) 편집에서 발생하는 시간적 일관성 유지와 추론 성능 제한 문제를 해결하기 위해 SANA-Streaming을 제안한다.#Review#Diffusion Transformer#Streaming Video Editing#Hybrid Architecture#Cycle-Reverse Regularization#Mixed-Precision Quantization#Real-time Inference2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Voxtral TTSNatural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.#Review#Text-to-Speech#Zero-shot Voice Cloning#Hybrid Architecture#Speech Codec#Flow-Matching#Direct Preference Optimization#Finite Scalar Quantization#Multilingual TTS2026년 3월 26일댓글 수 로딩 중
[논문리뷰] DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models고품질 데이터로 훈련된 Optical Flow 모델들은 블러(blur), 노이즈(noise), 압축 아티팩트(compression artifacts)와 같은 실제 환경의 손상(real-world corruptions)에 직면할 때 성능이 심각하게 저하됩니다.#Review#Optical Flow Estimation#Diffusion Models#Degradation-Aware#Image Restoration#Dense Correspondence#Spatio-Temporal Attention#Hybrid Architecture2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training인간은 시각적 관찰 스트림을 통해 실제 공간을 인지하고 이해하므로, 잠재적으로 무한한 비디오 스트림에서 Spatial Evidence 를 스트리밍 방식으로 유지하고 업데이트하는 능력은 Spatial Intelligence 에 필수적입니다.#Review#Spatial Intelligence#Test-Time Training#MLLM#Streaming Video#Hybrid Architecture#Spatiotemporal Convolution2026년 3월 12일댓글 수 로딩 중
[논문리뷰] UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model본 논문은 통합 멀티모달 대규모 언어 모델(MLLM)이 요구하는 고충실도 재구성, 복합적인 의미 추출 및 생성 적합성을 동시에 지원하는 시각적 표현을 제공하는 문제를 해결하고자 합니다.#Review#Multimodal LLM#Visual Tokenizer#Binary Codebook#Image Generation#Semantic Extraction#Pre-Post Distillation#Hybrid Architecture2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Falcon-H1R: Pushing the Reasoning Frontiers with a Hybrid Model for Efficient Test-Time Scaling본 연구는 7B 파라미터의 소규모 언어 모델(SLM)인 Falcon-H1R 이 대규모 모델(2배에서 7배 더 큼)과 경쟁하거나 능가하는 추론 성능을 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Reasoning#Small Language Models (SLMs)#Hybrid Architecture#Test-Time Scaling (TTS)#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#DeepConf#Computational Efficiency2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Web World Models본 논문은 고정된 컨텍스트의 웹 프레임워크와 완전히 생성형 세계 모델(World Model) 사이의 간극을 메우는 Web World Model (WWM) 개념을 제안합니다. 언어 에이전트가 지속적으로 활동, 기억, 학습할 수 있는 제어 가능하면서도 무한히 확장 가능한 환경 을 구축하는 것이 주된 목표입니다.#Review#Web World Model#LLM#Neuro-symbolic AI#Procedural Generation#Hybrid Architecture#Deterministic Generation#Persistent Environments#TypeScript2025년 12월 29일댓글 수 로딩 중
[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.#Review#Vision-Language Models#Linear Attention#Sliding Window Attention#Gated DeltaNet#Long-Context Understanding#Efficiency#Hybrid Architecture#Multimodal Learning2025년 12월 10일댓글 수 로딩 중
[논문리뷰] LFM2 Technical Report본 논문은 LFM2 라는 Liquid Foundation Models 제품군을 소개하며, 효율적인 온-디바이스 배포 와 강력한 태스크 수행 능력 을 동시에 달성하는 것을 목표로 합니다.#Review#Edge AI#Foundation Models#Hybrid Architecture#Knowledge Distillation#Multimodal AI#On-device Deployment#Efficient Inference#LLM Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano V2 VLNemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.#Review#Vision-Language Model#Hybrid Architecture#Mamba-Transformer#Long-Context Understanding#Quantization#Efficient Inference#Document AI#Video AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model논문은 Nemotron Nano 2 라는 하이브리드 Mamba-Transformer 언어 모델 을 소개하며, 유사 규모 모델 대비 추론 워크로드 처리량 을 최대 6배 향상 시키면서도 최고 수준의 정확도 를 달성하는 것을 목표로 합니다.#Review#Hybrid Architecture#Mamba-Transformer#Reasoning LLM#Model Compression#Knowledge Distillation#Long Context#High Throughput#FP8 Training#Instruction Following2025년 8월 21일댓글 수 로딩 중
[논문리뷰] Kimi Linear: An Expressive, Efficient Attention Architecture표준 트랜스포머의 quadratic 시간 복잡도 와 선형적으로 증가하는 KV 캐시 의 비효율성을 극복하여, 장문 컨텍스트 및 강화 학습(RL) 환경에서 풀 어텐션(Full Attention)과 동등하거나 더 우수한 성능 을 달성하면서도 효율적인 하이브리드 선형 어텐션 아키텍처 를 개발하는 것입니다.#Review#Linear Attention#Hybrid Architecture#Kimi Delta Attention (KDA)#Gating Mechanism#Long-Context Modeling#Efficient Inference#Transformer2025년 10월 31일댓글 수 로딩 중