[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.#vLLM#AI#딥러닝#최적화#LLM#어텐션#DCP#All-to-All2026년 5월 1일댓글 수 로딩 중
[SGLang] Expert Parallel MoE: 분산 전문가 레이어 구현SGLang의 Expert Parallel MoE를 분석한다. 전문가를 여러 GPU에 분산하는 EP 구조, All-to-All 통신, 로컬/리모트 전문가 라우팅을 코드와 함께 살펴본다.#sglang#Expert Parallelism#EP-MoE#All-to-All#Distributed2026년 4월 12일댓글 수 로딩 중