PR Analysis

[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정

스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.

#Triton #AMD #GPU #SharedMemory #AsyncCopy

2026년 3월 27일

[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가

SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.

#SGLang #CUDA #Diffusion #RoPE #RMSNorm #Kernel Fusion #GPU Optimization

2026년 3월 27일

[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소

SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.

#SGLang #CUDA #Kernel Optimization #RMSNorm #Diffusion #GPU

2026년 3월 27일

[llm-compressor] iMatrix Weighted MSE Observer - 중요도 행렬 기반 양자화

Importance Matrix(iMatrix)를 활용한 가중 MSE observer로 중요 가중치의 양자화 정밀도를 우선 보존

#llm-compressor #Performance

2026년 3월 27일

[CPython 3.13] pickle fast_save_enter() 테스트 정리 (backport)

pickle 모듈의 fast_save 테스트에서 불필요한 dict wrapper와 seed 매개변수를 제거한 3.13 backport 분석.

#CPython #pickle #Testing #Backport #Refactoring #Python

2026년 3월 27일

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계

Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.

#Triton #NVIDIA #Prefetch #MMAv2 #Pipeline

2026년 3월 27일

[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감

map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속

#Ray #Serialization #Object Store #Performance

2026년 3월 27일

[CPython] pickle fast_save_enter() 테스트 정리 및 불필요한 wrapper 제거

pickle 모듈의 fast_save 관련 테스트에서 불필요한 dict wrapper를 제거하고 deep_nested_struct의 seed 매개변수를 제거하여 테스트를 단순화한 분석.

#CPython #pickle #Testing #Refactoring #Python

2026년 3월 26일

[sglang] flush_cache 단순화: 동시 요청 거부와 클라이언트 재시도 제거

SGLang의 flush_cache를 Deque 기반 다중 요청 큐에서 Optional 단일 요청으로 단순화하고, 서버 측 timeout과 명확한 에러 메시지를 도입한 리팩토링 분석.

#SGLang #Cache Management #API Design #Simplification #Concurrency

2026년 3월 26일

[sglang] CI 버그 수정: /rerun-ut 동시 실행 시 중복 워크플로우 URL 문제 해결

SGLang CI에서 /rerun-ut 커맨드를 동시에 여러 개 실행할 때 잘못된 워크플로우 URL이 게시되는 버그를 run-name에 test_command를 포함시켜 수정한 분석.

#SGLang #CI #GitHub Actions #Bug Fix #Workflow

2026년 3월 26일

[SGLang] flush_cache API에 timeout 파라미터 추가

HiCache 비동기 작업 중 캐시 flush 실패를 방지하기 위해 대기 시간을 설정할 수 있는 timeout 파라미터를 도입한다

#SGLang #API #Cache Management #HiCache

2026년 3월 26일

[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선

SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.

#SGLang #NPU #CI #GitHub Actions #Caching #Ascend

2026년 3월 26일

[PaddleOCR] FastDeploy-Server 백엔드 추가로 VL 파이프라인 배포 옵션 확장

PaddleOCR-VL 파이프라인에 fastdeploy-server 백엔드를 추가하여 프로덕션 배포 선택지를 넓힙니다.

#PaddleOCR #FastDeploy #Inference #Backend #Deployment

2026년 3월 26일

[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정

비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.

#Triton #AMD #GPU #AsyncCopy #WarpSpecialization

2026년 3월 26일

[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬

sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.

#SGLang #sgl-kernel #Python Packaging #Wheel #CUDA #CI/CD

2026년 3월 26일

[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용

SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.

#SGLang #AMD #ROCm #Bug Fix #Lazy Import #Linear Attention

2026년 3월 25일

[SGLang] Diffusion JIT 커널 테스트 레이아웃 리팩터링 및 CI 트리거 정밀화

JIT 커널 테스트/벤치마크를 diffusion/ 서브폴더로 이동하고 CI 트리거를 관련 경로에만 반응하도록 좁힌다

#SGLang #CI/CD #Testing #Refactoring

2026년 3월 26일

[triton] AMD 백엔드에 Concurrency Sanitizer(ConSan) 지원 추가

AMD GPU에서 GPU 동시성 버그를 감지하는 ConSan을 지원하기 위해 MBarrierOpInterface, 타겟 훅, 캡처 카운트 추정 등을 구현한 사례를 분석합니다.

#Triton #AMD #GPU #ConSan #Sanitizer #Concurrency

2026년 3월 26일

[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입

FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention #CUDA #Optimization #LLM

2026년 3월 25일