[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.#SGLang#CUDA#Kernel Optimization#RMSNorm#Diffusion#GPU2026년 3월 27일댓글 수 로딩 중
[llm-compressor] iMatrix Weighted MSE Observer - 중요도 행렬 기반 양자화Importance Matrix(iMatrix)를 활용한 가중 MSE observer로 중요 가중치의 양자화 정밀도를 우선 보존#llm-compressor#Performance2026년 3월 27일댓글 수 로딩 중
[CPython 3.13] pickle fast_save_enter() 테스트 정리 (backport)pickle 모듈의 fast_save 테스트에서 불필요한 dict wrapper와 seed 매개변수를 제거한 3.13 backport 분석.#CPython#pickle#Testing#Backport#Refactoring#Python2026년 3월 27일댓글 수 로딩 중
[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.#Ray#Ray Data#Performance#PyArrow#Hashing#Schema2026년 3월 27일댓글 수 로딩 중
[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.#Triton#NVIDIA#Prefetch#MMAv2#Pipeline2026년 3월 27일댓글 수 로딩 중
[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속#Ray#Serialization#Object Store#Performance2026년 3월 27일댓글 수 로딩 중
[CPython] pickle fast_save_enter() 테스트 정리 및 불필요한 wrapper 제거pickle 모듈의 fast_save 관련 테스트에서 불필요한 dict wrapper를 제거하고 deep_nested_struct의 seed 매개변수를 제거하여 테스트를 단순화한 분석.#CPython#pickle#Testing#Refactoring#Python2026년 3월 26일댓글 수 로딩 중
[sglang] flush_cache 단순화: 동시 요청 거부와 클라이언트 재시도 제거SGLang의 flush_cache를 Deque 기반 다중 요청 큐에서 Optional 단일 요청으로 단순화하고, 서버 측 timeout과 명확한 에러 메시지를 도입한 리팩토링 분석.#SGLang#Cache Management#API Design#Simplification#Concurrency2026년 3월 26일댓글 수 로딩 중
[sglang] CI 버그 수정: /rerun-ut 동시 실행 시 중복 워크플로우 URL 문제 해결SGLang CI에서 /rerun-ut 커맨드를 동시에 여러 개 실행할 때 잘못된 워크플로우 URL이 게시되는 버그를 run-name에 test_command를 포함시켜 수정한 분석.#SGLang#CI#GitHub Actions#Bug Fix#Workflow2026년 3월 26일댓글 수 로딩 중
[SGLang] flush_cache API에 timeout 파라미터 추가HiCache 비동기 작업 중 캐시 flush 실패를 방지하기 위해 대기 시간을 설정할 수 있는 timeout 파라미터를 도입한다#SGLang#API#Cache Management#HiCache2026년 3월 26일댓글 수 로딩 중
[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.#SGLang#NPU#CI#GitHub Actions#Caching#Ascend2026년 3월 26일댓글 수 로딩 중
[PaddleOCR] FastDeploy-Server 백엔드 추가로 VL 파이프라인 배포 옵션 확장PaddleOCR-VL 파이프라인에 fastdeploy-server 백엔드를 추가하여 프로덕션 배포 선택지를 넓힙니다.#PaddleOCR#FastDeploy#Inference#Backend#Deployment2026년 3월 26일댓글 수 로딩 중
[triton] AMD Async Wait Count에서 Warp Free Variable 및 Register Zero Base 버그 수정비정규 warp가 async copy를 건너뛰는 경우와 register zero base가 명령어 수를 부풀리는 문제를 수정한 사례를 분석합니다.#Triton#AMD#GPU#AsyncCopy#WarpSpecialization2026년 3월 26일댓글 수 로딩 중
[sglang] sgl-kernel Wheel METADATA/WHEEL 태그를 CUDA 파일명과 정렬sgl-kernel의 wheel 빌드에서 파일명에 +cu124 suffix를 추가할 때 내부 METADATA Version과 WHEEL 태그도 함께 수정하여 pip 설치 오류를 해결한 분석.#SGLang#sgl-kernel#Python Packaging#Wheel#CUDA#CI/CD2026년 3월 26일댓글 수 로딩 중
[sglang] AMD/ROCm 시작 크래시 수정: CuteDSL KDA 커널 Lazy Import 적용SGLang에서 CuteDSL KDA 커널의 top-level import가 AMD/ROCm 환경에서 시작 시 크래시를 유발하는 문제를 lazy import로 수정한 분석.#SGLang#AMD#ROCm#Bug Fix#Lazy Import#Linear Attention2026년 3월 25일댓글 수 로딩 중
[SGLang] Diffusion JIT 커널 테스트 레이아웃 리팩터링 및 CI 트리거 정밀화JIT 커널 테스트/벤치마크를 diffusion/ 서브폴더로 이동하고 CI 트리거를 관련 경로에만 반응하도록 좁힌다#SGLang#CI/CD#Testing#Refactoring2026년 3월 26일댓글 수 로딩 중
[triton] AMD 백엔드에 Concurrency Sanitizer(ConSan) 지원 추가AMD GPU에서 GPU 동시성 버그를 감지하는 ConSan을 지원하기 위해 MBarrierOpInterface, 타겟 훅, 캡처 카운트 추정 등을 구현한 사례를 분석합니다.#Triton#AMD#GPU#ConSan#Sanitizer#Concurrency2026년 3월 26일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.#Triton#AMD#GPU#Optimization#GEMM2026년 3월 25일댓글 수 로딩 중
[SGLang] Diffusion Triton Rotary Embedding 다중 헤드 병렬 처리 최적화Triton rotary embedding 커널을 토큰당 여러 헤드를 동시에 처리하도록 재구성하여 커널 launch 횟수를 줄인다#SGLang#Triton#Diffusion#Rotary Embedding2026년 3월 26일댓글 수 로딩 중