[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.#sglang#Shared Memory#Broadcast#IPC#Low Latency2026년 4월 13일댓글 수 로딩 중
[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중
[논문리뷰] Video Streaming Thinking: VideoLLMs Can Watch and Think SimultaneouslyarXiv에 게시된 'Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video Understanding#VideoLLMs#Chain-of-Thought (CoT)#Real-time AI#Reinforcement Learning#Knowledge Graphs#Streaming Thinking#Low Latency2026년 3월 15일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video UnderstandingarXiv에 게시된 'HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] FlowAct-R1: Towards Interactive Humanoid Video GenerationarXiv에 게시된 'FlowAct-R1: Towards Interactive Humanoid Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Interactive Video Generation#Humanoid Synthesis#Real-time#Streaming Diffusion#MMDiT#Temporal Consistency#Multimodal Control#Low Latency2026년 1월 15일댓글 수 로딩 중
[논문리뷰] PersonaLive! Expressive Portrait Image Animation for Live StreamingJue Wang이 arXiv에 게시한 'PersonaLive! Expressive Portrait Image Animation for Live Streaming' 논문에 대한 자세한 리뷰입니다.#Review#Live Streaming#Portrait Animation#Diffusion Models#Real-time AI#Appearance Distillation#Micro-chunk Streaming#Motion Control#Low Latency2025년 12월 14일댓글 수 로딩 중
[논문리뷰] Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTSMorteza Abolghasemi이 arXiv에 게시한 'Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS' 논문에 대한 자세한 리뷰입니다.#Review#TTS#Phonemization#G2P#Low Latency#Real-time#Service-Oriented Architecture#Context-Aware#Persian Language2025년 12월 10일댓글 수 로딩 중