[논문리뷰] GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding본 연구는 MLA가 특정 하드웨어(예: NVIDIA H100)의 연산-대역폭 비율에 지나치게 종속되어 있다는 문제를 해결합니다.#Review#Large Language Model#KV-cache#Multi-head Latent Attention#GQLA#Hardware-Adaptive#Roofline Model#Tensor Parallelism2026년 5월 17일댓글 수 로딩 중
[SGLang] TP Worker: GPU별 텐서 병렬 워커의 설계SGLang의 TP Worker를 분석한다. GPU별로 독립 실행되는 텐서 병렬 워커의 초기화, 모델 로딩, Forward 패스 위임, Scheduler와의 통신을 코드와 함께 살펴본다.#sglang#TP Worker#Tensor Parallelism#GPU Worker2026년 4월 11일댓글 수 로딩 중
[axolotl] Tensor Parallelism batch_size 계산 버그 수정: dp_world_size 기반으로 전환Tensor Parallelism 환경에서 batch_size와 total_num_steps가 잘못 계산되던 버그를 dp_world_size 기반으로 수정하고, 파라미터화된 테스트를 추가한 사례를 분석합니다.#Axolotl#Tensor Parallelism#Distributed Training#Bug Fix2026년 3월 20일댓글 수 로딩 중
[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.#Review#Distributed Training#Matrix-based Optimizers#Load Balancing#Asynchronous Compute#Data Parallelism#Tensor Parallelism#ZeRO-1#LLMs2026년 2월 8일댓글 수 로딩 중
[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.#Review#LLM Inference#Tensor Parallelism#KV Cache Optimization#Latent Attention#Memory Efficiency#Decoding Speedup#Prefill/Decode Separation#Reparameterization2025년 8월 25일댓글 수 로딩 중