#Pipeline Parallelism

6개의 포스트

[논문리뷰] Streaming Communication in Multi-Agent Reasoning

본 논문은 기존의 'generate-then-transfer' 패러다임이 유발하는 불필요한 대기 시간과 추론 효율 저하 문제를 해결하기 위해 고안되었습니다.

#Review #Multi-Agent Reasoning #LLM #Pipeline Parallelism #Streaming Communication #Step-Level Scaling Law #Communication Protocol

2026년 6월 3일

[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.

#Review #Speculative Decoding #Pipeline Parallelism #LLM Inference #Feature Aggregation #Latency Hiding #Throughput

2026년 6월 1일

[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계

SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.

#sglang #Pipeline Parallelism #Scheduler Mixin #Micro-batch

2026년 4월 10일

[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정

SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.

#SGLang #Qwen3.5 #MoE #Pipeline Parallelism #Mamba #Bug Fix

2026년 3월 30일

[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

본 논문은 기존 확산 모델 기반 비디오 생성 방법론의 순차적 계산 및 장기 불일치 문제를 해결하여, 실시간 스트리밍 환경에서 140억 개 파라미터 규모의 확산 모델을 사용하여 무한 길이 의 고품질 오디오 기반 아바타 생성을 가능하게 하는 것을 목표로 합니다.

#Review #Audio-Driven Avatar Generation #Real-time Streaming #Diffusion Models #Infinite Length #Pipeline Parallelism #Temporal Consistency #Model Distillation

2025년 12월 4일

[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.

#Review #Multi-Agent Systems #Reinforcement Learning #LLMs #Pipeline Parallelism #Reasoning #Reward Shaping #Agentic AI

2025년 11월 16일