[SGLang] Data Parallel Controller: 다중 인스턴스 조율SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.#sglang#Data Parallelism#Load Balancing#Multi-Instance2026년 4월 13일댓글 수 로딩 중
[SGLang] EPLB: Expert-Parallel Load Balancing 알고리즘SGLang의 EPLB를 분석한다. 전문가 병렬 환경에서의 부하 균형 알고리즘, DeepSeek 스타일 로드 밸런싱, 전문가 위치 추적과 재분배를 코드와 함께 살펴본다.#sglang#EPLB#Load Balancing#Expert Distribution2026년 4월 12일댓글 수 로딩 중
[SGLang] MoE 라우팅: 토큰에서 전문가로의 배분 알고리즘SGLang의 MoE 라우팅 알고리즘을 분석한다. Top-K 게이트 선택, 로드 밸런싱, 토큰 드롭 전략, Expert Choice vs Token Choice 비교를 코드와 함께 살펴본다.#sglang#MoE Routing#Top-K Gate#Load Balancing2026년 4월 12일댓글 수 로딩 중
[SGLang] Data Parallel Attention 스케줄러: DP Attention 믹스인SGLang의 Data Parallel Attention 스케줄러를 분석한다. DP 환경에서의 어텐션 연산 분산, 배치 분배 전략, 로드 밸런싱을 코드와 함께 살펴본다.#sglang#Data Parallelism#DP Attention#Load Balancing2026년 4월 10일댓글 수 로딩 중
[논문리뷰] Dynamic Chunking Diffusion Transformer본 논문은 Diffusion Transformer (DiT)에서 고정된 패치화를 학습된 동적 청킹(dynamic chunking) 메커니즘 으로 대체하여 이미지 생성 품질을 유지하면서 연산 효율성을 극대화 하는 것을 목표로 합니다.#Review#Diffusion Transformer#Dynamic Chunking#Adaptive Patching#Image Generation#Computational Efficiency#Token Reduction#Spatial Segmentation#Load Balancing2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Arcee Trinity Large Technical Report본 논문은 희소한 Mixture-of-Experts (MoE) 아키텍처를 기반으로 하는 대규모 언어 모델인 Trinity Large 를 개발하고, 효율적인 학습 및 추론 성능과 높은 안정성을 달성하는 것을 목표로 합니다.#Review#Mixture-of-Experts#Sparse LLM#Training Stability#Load Balancing#MoE#Transformer Architecture#Context Extension#Muon Optimizer2026년 2월 19일댓글 수 로딩 중
[논문리뷰] Canzona: A Unified, Asynchronous, and Load-Balanced Framework for Distributed Matrix-based Optimizers논문은 대규모 언어 모델(LLM) 훈련에서 Shampoo, Muon, SOAP 와 같은 행렬 기반 옵티마이저 의 효율성을 높이고자 합니다.#Review#Distributed Training#Matrix-based Optimizers#Load Balancing#Asynchronous Compute#Data Parallelism#Tensor Parallelism#ZeRO-1#LLMs2026년 2월 8일댓글 수 로딩 중
[논문리뷰] The Illusion of Specialization: Unveiling the Domain-Invariant 'Standing Committee' in Mixture-of-Experts Models본 연구는 MoE(Mixture-of-Experts) 모델 이 희소 라우팅을 통해 도메인 특화(domain specialization)를 달성한다는 일반적인 가정에 의문을 제기합니다.#Review#Mixture-of-Experts (MoE)#Sparse Routing#Domain Specialization#Load Balancing#Interpretability#Standing Committee#LLM2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Janus: Disaggregating Attention and Experts for Scalable MoE Inference본 연구는 대규모 Mixture-of-Experts (MoE) 모델 추론 시 발생하는 높은 자원 요구량, 동적 워크로드, 그리고 어텐션 및 전문가 레이어 간의 이질적인 컴퓨팅 요구사항 문제를 해결하고자 합니다.#Review#MoE Inference#Disaggregated Architecture#Resource Management#Scalability#Load Balancing#GPU Utilization#Communication Optimization2025년 12월 16일댓글 수 로딩 중
[논문리뷰] A Meta-Heuristic Load Balancer for Cloud Computing Systems클라우드 시스템에서 노드 과부하를 방지하고 시스템 안정성을 유지하며 최소 비용으로 서비스를 할당하는 전략을 개발하는 것이 목표입니다. 특히, 다양한 유형의 자원 활용 및 서비스 마이그레이션 비용을 고려한 추상적인 클라우드 자원 모델을 제시하고 이를 효율적으로 관리할 로드 밸런서의 성능을 평가하고자 합니다.#Review#Cloud Computing#Load Balancing#Meta-Heuristic#Genetic Algorithm#Simulated Annealing#Tabu Search#Resource Management#Service Migration2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Grove MoE: Towards Efficient and Superior MoE LLMs with Adjugate Experts본 논문은 기존 MoE (Mixture of Experts) LLM의 한계인 고정된 파라미터 활성화와 이로 인한 비효율적인 계산 문제를 해결하는 것을 목표로 합니다.#Review#Mixture of Experts#LLMs#MoE Architecture#Dynamic Activation#Adjugate Experts#Upcycling Strategy#Load Balancing2025년 8월 12일댓글 수 로딩 중
[논문리뷰] Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning본 연구는 Vision-Language-Action (VLA) 모델 스케일링의 두 가지 주요 과제, 즉 사전 훈련된 VLA 모델 가중치 활용을 통한 효율적인 스케일업과 실시간 제어를 위한 모델 용량 및 연산 효율성 균형을 해결하고자 합니다.#Review#Vision-Language-Action (VLA)#Mixture of Experts (MoE)#Robotic Manipulation#Expert Specialization#Decoupled Routing#Load Balancing#Transfer Learning2025년 10월 17일댓글 수 로딩 중