#Tensor Parallelism

5개의 포스트

[논문리뷰] GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

본 연구는 MLA가 특정 하드웨어(예: NVIDIA H100)의 연산-대역폭 비율에 지나치게 종속되어 있다는 문제를 해결합니다.

#Review #Large Language Model #KV-cache #Multi-head Latent Attention #GQLA #Hardware-Adaptive #Roofline Model #Tensor Parallelism

2026년 5월 17일

[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계

SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.

#sglang #TP Worker #Tensor Parallelism #GPU Worker

2026년 4월 11일

[axolotl] Tensor Parallelism batch_size 계산 버그 수정: dp_world_size 기반으로 전환

Tensor Parallelism 환경에서 batch_size와 total_num_steps가 잘못 계산되던 버그를 dp_world_size 기반으로 수정하고, 파라미터화된 테스트를 추가한 사례를 분석합니다.

#Axolotl #Tensor Parallelism #Distributed Training #Bug Fix

2026년 3월 20일

[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers

논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.

#Review #Distributed Training #Matrix-based Optimizers #Load Balancing #Asynchronous Compute #Data Parallelism #Tensor Parallelism #ZeRO-1 #LLMs

2026년 2월 8일

[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference

본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.

#Review #LLM Inference #Tensor Parallelism #KV Cache Optimization #Latent Attention #Memory Efficiency #Decoding Speedup #Prefill/Decode Separation #Reparameterization

2025년 8월 25일