#Real-time

16개의 포스트

[논문리뷰] Lip Forcing: Few-Step Autoregressive Diffusion for Real-time Lip Synchronization

본 논문은 기존 Diffusion 기반의 오디오-비디오 생성 모델이 가진 높은 Latency와 연산 복잡도 문제를 해결하는 것을 목표로 합니다. 기존 방식은 고품질의 출력을 생성하기 위해 수십 번의 Sampling Step이 필요하여 실시간 서비스에 적용하기 어렵습니다.

#Review #Lip Synchronization #Diffusion Models #Autoregressive #Real-time #Audio-Driven Talking Face

2026년 6월 9일

[논문리뷰] SwiftVR: Real-Time One-Step Generative Video Restoration

본 논문은 실시간 비디오 스트리밍 환경에서 고해상도 복원을 수행하기 위한 제너레이티브 VR 모델의 배포 문제를 해결합니다.

#Review #Generative Video Restoration #Real-time #Diffusion Transformer #Shifted-Window Attention #Streaming Inference

2026년 6월 8일

[논문리뷰] FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder

본 연구는 로봇, 웨어러블 기기 등 자원이 제한된 환경에서 클라우드 기반의 AI 인식을 원활하게 수행하기 위한 실시간 영상 압축 기술의 한계를 해결하고자 합니다.

#Review #Compression #Autoencoder #Projection Pursuit #Asymmetric Codec #Real-time #Resource-constrained #Variable-rate

2026년 5월 31일

[논문리뷰] LiVeAction: a Lightweight, Versatile, and Asymmetric Neural Codec Design for Real-time Operation

본 논문은 현대의 고해상도 데이터 생성 센서 환경에서 발생하는 대역폭 및 전력 제약을 해결하기 위한 효율적인 신경망 코덱의 필요성을 다룬다. 기존의 상용 코덱(JPEG, MPEG)은 인간 지각에 최적화되어 있어 머신 퍼셉션 작업이나 비전통적 모달리티(공간 오디오, 하이퍼스펙트럴 등)에는 부적합하다.

#Review #Neural Compression #Real-time #Asymmetric Autoencoder #Finite Scalar Quantization #Rate-Distortion

2026년 5월 10일

[논문리뷰] R3PM-Net: Real-time, Robust, Real-world Point Matching Network

본 논문은 기존 딥러닝 기반 PCR 방법론들이 합성 데이터셋 위주로 개발되어 실세계 산업 환경의 노이즈와 데이터 결함에 취약하다는 문제를 해결하고자 합니다.

#Review #Point Cloud Registration #Real-time #Feature Extraction #Industrial Automation #Event-camera #Robustness

2026년 4월 8일

[논문리뷰] Streaming Autoregressive Video Generation via Diagonal Distillation

대규모 확산 모델의 제한된 실시간 스트리밍 기능을 개선하고, 기존 자기회귀 모델의 높은 연산 비용으로 인한 낮은 품질 문제를 해결하는 것이 목표입니다.

#Review #Video Generation #Autoregressive Models #Diffusion Models #Distillation #Real-time #Streaming #Temporal Coherence #Flow Matching

2026년 3월 10일

[논문리뷰] SARAH: Spatially Aware Real-time Agentic Humans

본 논문은 VR, 텔레프레젠스, 디지털 휴먼 애플리케이션에서 사용자의 움직임과 대화에 동적으로 반응하며, 자연스러운 시선을 유지하는 공간 인식(spatially aware) 에이전트의 실시간 전신 3D 동작 생성 을 목표로 합니다.

#Review #Embodied Agents #Real-time #Conversational AI #Motion Generation #Spatially Aware #VR #Causal Models #Flow Matching #Gaze Control

2026년 2월 22일

[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation

본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.

#Review #Interactive Video Generation #Humanoid Synthesis #Real-time #Streaming Diffusion #MMDiT #Temporal Consistency #Multimodal Control #Low Latency

2026년 1월 15일

[논문리뷰] Efficient Camera-Controlled Video Generation of Static Scenes via Sparse Diffusion and 3D Rendering

본 논문은 확산 모델 기반 비디오 생성의 높은 계산 비효율성 문제를 해결하고, 정적 장면에 대한 카메라 제어 비디오 생성 을 위한 효율적인 프레임워크를 제안하는 것을 목표로 합니다.

#Review #Video Generation #Diffusion Models #3D Reconstruction #3D Gaussian Splatting #Camera-Controlled #Sparse Keyframes #Real-time #Computational Efficiency

2026년 1월 14일

[논문리뷰] Sharp Monocular View Synthesis in Less Than a Second

이 논문은 단일 이미지로부터 실시간 포토리얼리스틱 뷰 합성(photorealistic view synthesis) 을 목표로 하며, 특히 AR/VR 애플리케이션 을 위한 고해상도 3D 장면 표현 을 1초 미만에 생성하는 것을 목표로 합니다.

#Review #View Synthesis #3D Gaussian Splatting #Single Image #Neural Rendering #Real-time #Feedforward Network #Monocular Depth Estimation #AR/VR

2025년 12월 14일

[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS

경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.

#Review #TTS #Phonemization #G2P #Low Latency #Real-time #Service-Oriented Architecture #Context-Aware #Persian Language

2025년 12월 10일

[논문리뷰] Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

효율적인 스트리밍 비디오 생성 시 기존 방법론들이 정적 초기 토큰에 과도하게 의존하여 동적 움직임 저하와 '프레임 복사' 문제를 겪는 한계를 극복하고자 합니다. 본 연구는 실시간으로 높은 시각적 충실도와 강력한 움직임 역동성을 동시에 유지하는 비디오 생성을 목표로 합니다.

#Review #Streaming Video Generation #Video Diffusion Models #Distribution Matching Distillation #Reinforcement Learning #Autoregressive Models #Attention Sink #Real-time

2025년 12월 4일

[논문리뷰] LongLive: Real-time Interactive Long Video Generation

실시간 및 대화형으로 고품질의 긴 비디오를 생성하는 데 따르는 효율성, 일관성, 그리고 시맨틱 일관성 문제를 해결하는 것을 목표로 합니다. 특히, 프롬프트 전환 시 시각적 일관성과 동적 콘텐츠 생성을 위한 상호작용성 부족이라는 기존 AR 및 Diffusion 모델의 한계를 극복하고자 합니다.

#Review #Long Video Generation #Real-time #Interactive AI #Autoregressive Models #KV Cache #Streaming Tuning #Attention Sink #Diffusion Models

2025년 9월 29일

[논문리뷰] ViSTA-SLAM: Visual SLAM with Symmetric Two-view Association

본 연구는 기존 모노큘러 덴스 SLAM 시스템의 주요 한계점인 카메라 인트린직스(intrinsics) 필요성, 높은 계산 복잡성, 그리고 장기적인 시퀀스에서의 드리프트 축적 문제를 해결하는 것을 목표로 합니다.

#Review #Monocular SLAM #Dense Reconstruction #Neural Networks #Pose Graph Optimization #Intrinsics-free #Real-time #Two-view Association

2025년 9월 3일

[논문리뷰] ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation

본 논문은 단안 이미지 시퀀스에서 고효율 및 고품질의 실시간 3D 재구성 을 달성하는 것을 목표로 합니다. 기존 per-scene 최적화 방식의 높은 계산 비용과 feed-forward 모델 의 정확도 및 견고성 부족이라는 주요 트레이드오프를 해결하고자 합니다.

#Review #3D Reconstruction #Monocular SLAM #Gaussian Splatting #Level of Detail (LoD)#Feed-Forward Models #Structured Scene Representation #Real-time #High-Fidelity

2025년 10월 10일

[논문리뷰] Human3R: Everyone Everywhere All at Once

본 논문은 캐주얼하게 촬영된 모노큘러 비디오로부터 세계 좌표계 상의 온라인 4D 인간-장면 재구성 을 위한 통합적이고 피드포워드 방식의 프레임워크인 Human3R을 제안합니다. 기존의 다단계 파이프라인, 반복적 정제, 그리고 인간 감지 및 SLAM과 같은 무거운 전처리에 대한 의존성 문제를 해결하고자 합니다.

#Review #4D Human-Scene Reconstruction #Online Reconstruction #Multi-person #SMPL-X #Transformer #Visual Prompt Tuning #Real-time #Foundation Model

2025년 10월 8일