[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.#SGLang#Whisper#CUDA Graph#Performance Optimization#LLM2026년 3월 28일댓글 수 로딩 중
[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.#Triton#AMD#GPU#TDM#WarpDistribution2026년 3월 28일댓글 수 로딩 중
[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.#Axolotl#GRPO#LLM Training#Performance#Flash Attention#PyTorch#Reinforcement Learning2026년 3월 28일댓글 수 로딩 중
[CPython 3.14] asyncio.Queue docstring의 모호한 표현 수정 (backport)asyncio.Queue docstring에서 'standard library Queue'를 'queue.Queue'로 변경한 3.14 backport 분석.#CPython#asyncio#Documentation#Backport#Python2026년 3월 28일댓글 수 로딩 중
[Ray Serve] 처리량 최적화 설정 로깅 기능 추가RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력#Ray#Ray Serve#Observability#Performance2026년 3월 28일댓글 수 로딩 중
[CPython 3.13] asyncio.Queue docstring의 모호한 표현 수정 (backport)asyncio.Queue docstring에서 'standard library Queue'를 'queue.Queue'로 변경한 3.13 backport 분석.#CPython#asyncio#Documentation#Backport#Python2026년 3월 28일댓글 수 로딩 중
[CPython] asyncio.Queue docstring의 모호한 'standard library Queue' 표현 수정asyncio.Queue docstring에서 'standard library Queue'라는 모호한 표현을 명확한 'queue.Queue'로 변경한 분석.#CPython#asyncio#Documentation#Python2026년 3월 28일댓글 수 로딩 중
[CPython] 64-bit ARM 커널에서 32-bit ARM Android의 sysconfig ABI 감지 수정armv8l 머신에서 Python sysconfig가 잘못된 ABI를 반환하던 문제를 수정한 CPython 패치 분석.#CPython#Android#ARM#sysconfig#Bug Fix#Python2026년 3월 27일댓글 수 로딩 중
[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.#SGLang#Python GC#Performance Tuning#Memory Management#Server Args2026년 3월 27일댓글 수 로딩 중
[Ultralytics] multi_scale 옵션을 auto-batch 계산에 포함하여 OOM 방지multi_scale 학습 시 실제 최대 이미지 크기를 반영하여 auto-batch가 메모리를 과도하게 할당하지 않도록 수정합니다.#Ultralytics#YOLO#Training#Auto-batch#Memory2026년 3월 27일댓글 수 로딩 중
[Ultralytics] MPS 디바이스에서 메모리 누수 방지를 위한 적극적 메모리 정리Apple MPS 디바이스에서 발생하는 메모리 누수를 방지하기 위해 threshold 없이 항상 메모리를 정리하도록 수정합니다.#Ultralytics#YOLO#MPS#Memory Leak#Apple Silicon2026년 3월 27일댓글 수 로딩 중
[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrapSGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.#SGLang#VLM#Shared Memory#Multimodal#Optimization#IPC2026년 3월 27일댓글 수 로딩 중
[CPython 3.14] OrderedDict.popitem() 메모리 누수 수정 (backport)OrderedDict popitem()에서 에러 경로의 Py_DECREF(key) 누락으로 인한 메모리 누수를 수정한 3.14 backport 분석.#CPython#OrderedDict#Memory Leak#Backport#Bug Fix#C2026년 3월 27일댓글 수 로딩 중
[CPython] OrderedDict.popitem()의 메모리 누수 수정OrderedDict의 popitem() 메서드에서 에러 경로에서 key 참조를 해제하지 않아 발생하던 메모리 누수를 수정한 분석.#CPython#OrderedDict#Memory Leak#Bug Fix#C#Reference Counting2026년 3월 27일댓글 수 로딩 중
[triton] GSan AxisInfo 기반 Shadow Update 중복 제거로 2~10배 성능 향상Triton의 Global Sanitizer에서 AxisInfo의 contiguity 속성을 활용하여 중복 shadow update를 제거하고, FP16 matmul에서 최대 10배 속도 향상을 달성한 PR을 분석합니다.#Triton#GPU#Sanitizer#Optimization#MLIR2026년 3월 27일댓글 수 로딩 중
[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.#SGLang#CI#JIT Kernel#Testing#CUDA2026년 3월 27일댓글 수 로딩 중
[CPython] JIT stencil에서 frame pointer 보존 검증 추가CPython JIT 컴파일러가 생성하는 stencil 코드에서 frame pointer가 올바르게 보존되는지 검증하는 validation 로직 분석.#CPython#JIT#Frame Pointer#Debugging#Profiling#AArch64#x862026년 3월 27일댓글 수 로딩 중
[CPython] AArch64 JIT stencil에서 frame pointer 예약 활성화AArch64 Linux 환경의 CPython JIT에서 frame pointer를 reserved로 설정하여 네이티브 프로파일러 호환성을 확보한 분석.#CPython#JIT#AArch64#Frame Pointer#Profiling#Linux2026년 3월 27일댓글 수 로딩 중
[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.#Triton#AMD#GPU#SharedMemory#AsyncCopy2026년 3월 27일댓글 수 로딩 중
[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.#SGLang#CUDA#Diffusion#RoPE#RMSNorm#Kernel Fusion#GPU Optimization2026년 3월 27일댓글 수 로딩 중