[논문리뷰] Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization본 논문은 기존 Diffusion 기반의 오디오-비디오 생성 모델이 가진 높은 Latency와 연산 복잡도 문제를 해결하는 것을 목표로 합니다. 기존 방식은 고품질의 출력을 생성하기 위해 수십 번의 Sampling Step이 필요하여 실시간 서비스에 적용하기 어렵습니다.#Review#Lip Synchronization#Diffusion Models#Autoregressive#Real-time#Audio-Driven Talking Face2026년 6월 9일댓글 수 로딩 중
[논문리뷰] SwiftVR: Real-Time One-Step Generative Video Restoration본 논문은 실시간 비디오 스트리밍 환경에서 고해상도 복원을 수행하기 위한 제너레이티브 VR 모델의 배포 문제를 해결합니다.#Review#Generative Video Restoration#Real-time#Diffusion Transformer#Shifted-Window Attention#Streaming Inference2026년 6월 8일댓글 수 로딩 중
[논문리뷰] FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder본 연구는 로봇, 웨어러블 기기 등 자원이 제한된 환경에서 클라우드 기반의 AI 인식을 원활하게 수행하기 위한 실시간 영상 압축 기술의 한계를 해결하고자 합니다.#Review#Compression#Autoencoder#Projection Pursuit#Asymmetric Codec#Real-time#Resource-constrained#Variable-rate2026년 5월 31일댓글 수 로딩 중
[논문리뷰] LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation본 논문은 현대의 고해상도 데이터 생성 센서 환경에서 발생하는 대역폭 및 전력 제약을 해결하기 위한 효율적인 신경망 코덱의 필요성을 다룬다. 기존의 상용 코덱(JPEG, MPEG)은 인간 지각에 최적화되어 있어 머신 퍼셉션 작업이나 비전통적 모달리티(공간 오디오, 하이퍼스펙트럴 등)에는 부적합하다.#Review#Neural Compression#Real-time#Asymmetric Autoencoder#Finite Scalar Quantization#Rate-Distortion2026년 5월 10일댓글 수 로딩 중
[논문리뷰] R3PM-Net: Real-time, Robust, Real-world Point Matching Network본 논문은 기존 딥러닝 기반 PCR 방법론들이 합성 데이터셋 위주로 개발되어 실세계 산업 환경의 노이즈와 데이터 결함에 취약하다는 문제를 해결하고자 합니다.#Review#Point Cloud Registration#Real-time#Feature Extraction#Industrial Automation#Event-camera#Robustness2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.#Review#Video Generation#Autoregressive Models#Diffusion Models#Distillation#Real-time#Streaming#Temporal Coherence#Flow Matching2026년 3월 10일댓글 수 로딩 중
[논문리뷰] SARAH: Spatially Aware Real-time Agentic Humans본 논문은 VR, 텔레프레젠스, 디지털 휴먼 애플리케이션에서 사용자의 움직임과 대화에 동적으로 반응하며, 자연스러운 시선을 유지하는 공간 인식(spatially aware) 에이전트의 실시간 전신 3D 동작 생성 을 목표로 합니다.#Review#Embodied Agents#Real-time#Conversational AI#Motion Generation#Spatially Aware#VR#Causal Models#Flow Matching#Gaze Control2026년 2월 22일댓글 수 로딩 중
[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.#Review#Interactive Video Generation#Humanoid Synthesis#Real-time#Streaming Diffusion#MMDiT#Temporal Consistency#Multimodal Control#Low Latency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering본 논문은 확산 모델 기반 비디오 생성의 높은 계산 비효율성 문제를 해결하고, 정적 장면에 대한 카메라 제어 비디오 생성 을 위한 효율적인 프레임워크를 제안하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Models#3D Reconstruction#3D Gaussian Splatting#Camera-Controlled#Sparse Keyframes#Real-time#Computational Efficiency2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Sharp Monocular View Synthesis in Less Than a Second이 논문은 단일 이미지로부터 실시간 포토리얼리스틱 뷰 합성(photorealistic view synthesis) 을 목표로 하며, 특히 AR/VR 애플리케이션 을 위한 고해상도 3D 장면 표현 을 1초 미만에 생성하는 것을 목표로 합니다.#Review#View Synthesis#3D Gaussian Splatting#Single Image#Neural Rendering#Real-time#Feedforward Network#Monocular Depth Estimation#AR/VR2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.#Review#TTS#Phonemization#G2P#Low Latency#Real-time#Service-Oriented Architecture#Context-Aware#Persian Language2025년 12월 10일댓글 수 로딩 중
[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.#Review#Streaming Video Generation#Video Diffusion Models#Distribution Matching Distillation#Reinforcement Learning#Autoregressive Models#Attention Sink#Real-time2025년 12월 4일댓글 수 로딩 중
[논문리뷰] LongLive: Real-time Interactive Long Video Generation실시간 및 대화형으로 고품질의 긴 비디오를 생성하는 데 따르는 효율성, 일관성, 그리고 시맨틱 일관성 문제를 해결하는 것을 목표로 합니다. 특히, 프롬프트 전환 시 시각적 일관성과 동적 콘텐츠 생성을 위한 상호작용성 부족이라는 기존 AR 및 Diffusion 모델의 한계를 극복하고자 합니다.#Review#Long Video Generation#Real-time#Interactive AI#Autoregressive Models#KV Cache#Streaming Tuning#Attention Sink#Diffusion Models2025년 9월 29일댓글 수 로딩 중
[논문리뷰] ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association본 연구는 기존 모노큘러 덴스 SLAM 시스템의 주요 한계점인 카메라 인트린직스(intrinsics) 필요성, 높은 계산 복잡성, 그리고 장기적인 시퀀스에서의 드리프트 축적 문제를 해결하는 것을 목표로 합니다.#Review#Monocular SLAM#Dense Reconstruction#Neural Networks#Pose Graph Optimization#Intrinsics-free#Real-time#Two-view Association2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation본 논문은 단안 이미지 시퀀스에서 고효율 및 고품질의 실시간 3D 재구성 을 달성하는 것을 목표로 합니다. 기존 per-scene 최적화 방식의 높은 계산 비용과 feed-forward 모델 의 정확도 및 견고성 부족이라는 주요 트레이드오프를 해결하고자 합니다.#Review#3D Reconstruction#Monocular SLAM#Gaussian Splatting#Level of Detail (LoD)#Feed-Forward Models#Structured Scene Representation#Real-time#High-Fidelity2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Human3R: Everyone Everywhere All at Once본 논문은 캐주얼하게 촬영된 모노큘러 비디오로부터 세계 좌표계 상의 온라인 4D 인간-장면 재구성 을 위한 통합적이고 피드포워드 방식의 프레임워크인 Human3R을 제안합니다. 기존의 다단계 파이프라인, 반복적 정제, 그리고 인간 감지 및 SLAM과 같은 무거운 전처리에 대한 의존성 문제를 해결하고자 합니다.#Review#4D Human-Scene Reconstruction#Online Reconstruction#Multi-person#SMPL-X#Transformer#Visual Prompt Tuning#Real-time#Foundation Model2025년 10월 8일댓글 수 로딩 중