[논문리뷰] Streaming Communication in Multi-Agent Reasoning본 논문은 기존의 'generate-then-transfer' 패러다임이 유발하는 불필요한 대기 시간과 추론 효율 저하 문제를 해결하기 위해 고안되었습니다.#Review#Multi-Agent Reasoning#LLM#Pipeline Parallelism#Streaming Communication#Step-Level Scaling Law#Communication Protocol2026년 6월 3일댓글 수 로딩 중
[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.#Review#Speculative Decoding#Pipeline Parallelism#LLM Inference#Feature Aggregation#Latency Hiding#Throughput2026년 6월 1일댓글 수 로딩 중
[SGLang] Pipeline Parallelism 스케줄러: PP 믹스인 설계SGLang의 Pipeline Parallelism 스케줄러 믹스인을 분석한다. PP 환경에서의 마이크로배치 분할, 스테이지 간 통신, 버블 최소화 전략을 코드와 함께 살펴본다.#sglang#Pipeline Parallelism#Scheduler Mixin#Micro-batch2026년 4월 10일댓글 수 로딩 중
[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.#SGLang#Qwen3.5#MoE#Pipeline Parallelism#Mamba#Bug Fix2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length본 논문은 기존 확산 모델 기반 비디오 생성 방법론의 순차적 계산 및 장기 불일치 문제를 해결하여, 실시간 스트리밍 환경에서 140억 개 파라미터 규모의 확산 모델을 사용하여 무한 길이 의 고품질 오디오 기반 아바타 생성을 가능하게 하는 것을 목표로 합니다.#Review#Audio-Driven Avatar Generation#Real-time Streaming#Diffusion Models#Infinite Length#Pipeline Parallelism#Temporal Consistency#Model Distillation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism대규모 언어 모델(LLMs) 기반 멀티 에이전트 추론 시스템이 보상 잡음(reward noise) 과 훈련 비효율성 으로 인해 오픈 소스 모델에 일반화되기 어려운 문제를 해결하는 것이 목표입니다.#Review#Multi-Agent Systems#Reinforcement Learning#LLMs#Pipeline Parallelism#Reasoning#Reward Shaping#Agentic AI2025년 11월 16일댓글 수 로딩 중