[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.#sglang#Shared Memory#Broadcast#IPC#Low Latency2026년 4월 13일댓글 수 로딩 중
[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중
[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously온라인 Video Large Language Models (VideoLLMs) 는 스트리밍 시각 입력(streaming visual inputs)을 해석하고 실시간으로 응답하는 데 필수적이며, 특히 Embodied Intelligence와 상호작용형 AI 어시스턴트에서 중요하다.#Review#Streaming Video Understanding#VideoLLMs#Chain-of-Thought (CoT)#Real-time AI#Reinforcement Learning#Knowledge Graphs#Streaming Thinking#Low Latency2026년 3월 15일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video Generation본 논문은 실시간 상호작용이 가능한 휴머노이드 비디오 생성을 목표로 하며, 기존 비디오 합성 방법론이 고품질 합성 및 실시간 상호작용 요구사항 사이에서 겪는 한계를 극복하고자 합니다. 특히, 연속적이고 반응적인 방식으로 인간과 상호작용할 수 있는 생체와 같은 시각적 에이전트를 합성하는 것을 주된 연구 목적으로 합니다.#Review#Interactive Video Generation#Humanoid Synthesis#Real-time#Streaming Diffusion#MMDiT#Temporal Consistency#Multimodal Control#Low Latency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] PersonaLive! Expressive Portrait Image Animation for Live Streaming기존 확산 모델 기반 초상화 애니메이션이 시각적 품질과 표현 사실성에 중점을 두어 높은 계산 비용 과 지연 시간 으로 인해 라이브 스트리밍에 부적합하다는 문제를 해결하고자 합니다.#Review#Live Streaming#Portrait Animation#Diffusion Models#Real-time AI#Appearance Distillation#Micro-chunk Streaming#Motion Control#Low Latency2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS경량화된 실시간 TTS 시스템에서 문맥 인지 phonemization의 품질과 추론 속도 간의 근본적인 트레이드오프를 해결하는 것이 목표입니다.#Review#TTS#Phonemization#G2P#Low Latency#Real-time#Service-Oriented Architecture#Context-Aware#Persian Language2025년 12월 10일댓글 수 로딩 중