최신 포스트

[SGLang] CUDA IPC Pool Handle 캐싱으로 멀티모달 전송 최적화

멀티모달 데이터 전송 시 CUDA IPC 핸들을 풀 수준에서 캐싱하여 반복적인 cudaIpcOpenMemHandle 호출을 제거한다

#SGLang #CUDA IPC #Multimodal #Performance

2026년 3월 29일

[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가

SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.

#SGLang #CI #Benchmark #GB300 #Blackwell #NeMo Skills #VLM

2026년 3월 29일

[CPython] sqlite3 콜백 컨텍스트의 메모리 관리 버그 수정

sqlite3 모듈의 내부 callback context 메모리 관리 결함을 수정하여 MemoryError 대신 SystemError가 발생하던 문제와 SQLITE_BUSY 시 crash를 해결한 분석.

#CPython #sqlite3 #Memory Management #Bug Fix #C

2026년 3월 29일

[SGLang] GDN의 kkt + solve_tril을 하나의 Triton 커널로 퓨전

Gated Delta Network의 K@K^T 계산과 삼각 행렬 풀이를 단일 Triton 커널로 합쳐 HBM 왕복을 제거한다

#SGLang #Triton #Kernel Fusion #Linear Attention

2026년 3월 29일

[sglang] SGLang Whisper 모델의 CUDA Graph 도입 및 성능 최적화 분석

Whisper 모델에 CUDA Graph를 도입하여 처리량을 36% 향상시킨 SGLang의 최적화 기법과 구현 상세를 분석합니다.

#SGLang #Whisper #CUDA Graph #Performance Optimization #LLM

2026년 3월 28일

[triton] AMD TDM의 Partition-Aware 분할 및 다중 Intrinsic 지원

PartitionedSharedEncoding에서 TDM warp 배분을 파티션 경계에 맞추고, 다중 TDM 명령어 생성 및 wait count 계산을 올바르게 처리하도록 개선한 사례를 분석합니다.

#Triton #AMD #GPU #TDM #WarpDistribution

2026년 3월 28일

[Axolotl] GRPO 트레이너에 batch flattening/packing 지원 추가

GRPO 강화학습 트레이너의 scoring forward pass에서 padding 토큰을 제거하는 batch flattening 기법으로 20-34% 성능 향상을 달성한 분석.

#Axolotl #GRPO #LLM Training #Performance #Flash Attention #PyTorch #Reinforcement Learning

2026년 3월 28일

[CPython 3.14] asyncio.Queue docstring의 모호한 표현 수정 (backport)

asyncio.Queue docstring에서 'standard library Queue'를 'queue.Queue'로 변경한 3.14 backport 분석.

#CPython #asyncio #Documentation #Backport #Python

2026년 3월 28일

[Ray Serve] 처리량 최적화 설정 로깅 기능 추가

RAY_SERVE_THROUGHPUT_OPTIMIZED 활성화 시 최적화 설정 로그 출력

#Ray #Ray Serve #Observability #Performance

2026년 3월 28일

[CPython 3.13] asyncio.Queue docstring의 모호한 표현 수정 (backport)

asyncio.Queue docstring에서 'standard library Queue'를 'queue.Queue'로 변경한 3.13 backport 분석.

#CPython #asyncio #Documentation #Backport #Python

2026년 3월 28일

[CPython] asyncio.Queue docstring의 모호한 'standard library Queue' 표현 수정

asyncio.Queue docstring에서 'standard library Queue'라는 모호한 표현을 명확한 'queue.Queue'로 변경한 분석.

#CPython #asyncio #Documentation #Python

2026년 3월 28일

[CPython] 64-bit ARM 커널에서 32-bit ARM Android의 sysconfig ABI 감지 수정

armv8l 머신에서 Python sysconfig가 잘못된 ABI를 반환하던 문제를 수정한 CPython 패치 분석.

#CPython #Android #ARM #sysconfig #Bug Fix #Python

2026년 3월 27일

[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원

SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.

#SGLang #Python GC #Performance Tuning #Memory Management #Server Args

2026년 3월 27일

[Ultralytics] multi_scale 옵션을 auto-batch 계산에 포함하여 OOM 방지

multi_scale 학습 시 실제 최대 이미지 크기를 반영하여 auto-batch가 메모리를 과도하게 할당하지 않도록 수정합니다.

#Ultralytics #YOLO #Training #Auto-batch #Memory

2026년 3월 27일

[Ultralytics] MPS 디바이스에서 메모리 누수 방지를 위한 적극적 메모리 정리

Apple MPS 디바이스에서 발생하는 메모리 누수를 방지하기 위해 threshold 없이 항상 메모리를 정리하도록 수정합니다.

#Ultralytics #YOLO #MPS #Memory Leak #Apple Silicon

2026년 3월 27일

[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrap

SGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.

#SGLang #VLM #Shared Memory #Multimodal #Optimization #IPC

2026년 3월 27일

[CPython 3.14] OrderedDict.popitem() 메모리 누수 수정 (backport)

OrderedDict popitem()에서 에러 경로의 Py_DECREF(key) 누락으로 인한 메모리 누수를 수정한 3.14 backport 분석.

#CPython #OrderedDict #Memory Leak #Backport #Bug Fix #C

2026년 3월 27일

[CPython] OrderedDict.popitem()의 메모리 누수 수정

OrderedDict의 popitem() 메서드에서 에러 경로에서 key 참조를 해제하지 않아 발생하던 메모리 누수를 수정한 분석.

#CPython #OrderedDict #Memory Leak #Bug Fix #C #Reference Counting

2026년 3월 27일

[triton] GSan AxisInfo 기반 Shadow Update 중복 제거로 2~10배 성능 향상

Triton의 Global Sanitizer에서 AxisInfo의 contiguity 속성을 활용하여 중복 shadow update를 제거하고, FP16 matmul에서 최대 10배 속도 향상을 달성한 PR을 분석합니다.

#Triton #GPU #Sanitizer #Optimization #MLIR

2026년 3월 27일

[sglang] CI 테스트 등록 누락 수정: JIT 커널 테스트/벤치마크 파일 등록

SGLang CI에서 누락된 JIT 커널 테스트 및 벤치마크 파일 4개에 register_cuda_ci 호출을 추가하여 CI 커버리지를 완성한 분석.

#SGLang #CI #JIT Kernel #Testing #CUDA

2026년 3월 27일