#Pipeline

15개의 포스트

[SGLang] Batch Overlap: 연산-통신 오버랩 최적화

SGLang의 Batch Overlap을 분석한다. GPU 연산과 통신을 중첩하여 유휴 시간을 줄이는 전략, Single/Dual 배치 오버랩 모드를 코드와 함께 살펴본다.

#sglang #Batch Overlap #Compute-Communication #Pipeline

2026년 4월 14일

[SGLang] Multimodal 처리 파이프라인 개요: Vision/Audio/Video 통합

SGLang의 Multimodal 처리 파이프라인을 분석한다. 이미지, 오디오, 비디오 입력의 전처리, 임베딩 변환, LLM과의 결합 과정을 코드와 함께 살펴본다.

#sglang #Multimodal #Vision #Audio #Video #Pipeline

2026년 4월 14일

[llm-compressor] Intermediates Cache: 서브그래프 활성화 오프로드 캐시

IntermediatesCache가 배치별 중간 활성화를 CPU/GPU 사이에서 오프로드/온로드하면서 메모리를 관리하는 구조와 prefetch 메커니즘 분석

#llm-compressor #Pipeline #Memory #Offload

2026년 4월 13일

[llm-compressor] Data-Free & Independent Pipeline: 데이터 없는 파이프라인과 Modifier별 개별 실행

DataFreePipeline의 포워드 없는 구조와 IndependentPipeline의 Modifier별 파이프라인 자동 선택 로직 분석

#llm-compressor #Pipeline #DataFree #Independent

2026년 4월 13일

[llm-compressor] Sequential Pipeline: 레이어 단위 서브그래프 캘리브레이션

SequentialPipeline이 모델을 서브그래프로 쪼개고 중간 활성화를 오프로드하며 GPTQ/SparseGPT를 수행하는 구조 분석

#llm-compressor #Pipeline #Sequential #Calibration

2026년 4월 13일

[llm-compressor] Basic Pipeline: 한 번의 forward로 끝내는 캘리브레이션

BasicPipeline이 모델 전체를 단일 forward로 순회하며 캘리브레이션하는 구조와 loss mask, dispatch_model 처리 분석

#llm-compressor #Pipeline #Calibration

2026년 4월 13일

[llm-compressor] Pipeline Registry: Modifier 목록을 보고 파이프라인 자동 선택

CalibrationPipeline 추상 클래스와 from_modifiers 디스패처가 basic/sequential/data_free/independent 중 어떤 파이프라인을 고를지 결정하는 로직 분석

#llm-compressor #Pipeline #Registry

2026년 4월 13일

[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계

Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.

#Triton #NVIDIA #Prefetch #MMAv2 #Pipeline

2026년 3월 27일

[triton] AMD Pipelined Loop에서 TDM Load의 Buffer Race 수정

AMD GPU의 pipelined loop에서 TDM load 사용 시 버퍼 수가 부족하여 발생하는 데이터 경쟁 버그를 수정한 PR 분석.

#Triton #AMD #TDM #Pipeline #BufferRace #BugFix

2026년 3월 14일

[Grafana Loki] 배치 처리를 파이프라인 래퍼로 분리하여 캐시 통합 준비

실행기의 drain 로직에 섞여 있던 배치 처리를 독립 파이프라인으로 추출하여, 태스크 캐시 구현의 기반을 마련한 리팩터링 분석.

#Grafana Loki #Go #Refactoring #Pipeline #Arrow

2026년 3월 11일

[triton] AMD MoveUpPrologueLoads로 ReorderInstructions 패스 완전 대체

여러 차례 최적화가 제거된 ReorderInstructions를 단일 목적의 MoveUpPrologueLoads 패스로 대체하여 코드 명확성을 높인 PR을 분석합니다.

#Triton #AMD #Refactoring #Compiler #Pipeline

2026년 2월 1일

[triton] AutoWS에서 TMA와 non-TMA 로드 혼합 시 self-latency 및 MMA 처리 수정

Warp specialization에서 TMA와 일반 로드가 혼합될 때 MMA의 self-latency를 올바르게 설정하고 warp-specialized MMA를 lowerMMA에서 처리하도록 수정한 PR을 분석합니다.

#Triton #NVIDIA #AutoWS #TMA #Pipeline

2026년 1월 7일

[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성

파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.

#Triton #NVIDIA #WGMMA #Pipeline #Optimization

2025년 12월 17일

[triton] Warp Specialization: OptimizePartitionWarps와 SWP 순서 교환으로 어노테이션 보존

OptimizePartitionWarps 패스가 local_load의 루프 어노테이션을 삭제하는 문제를 해결하기 위해 SWP(Software Warp Pipelining) 이후로 실행 순서를 변경한 분석.

#Triton #Warp Specialization #Compiler Pass #MLIR #Pipeline

2025년 10월 14일

[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원

AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장

#Triton #AMD #AsyncCopy #Padding #Pipeline

2025년 10월 7일