[SGLang] MoE 모델을 위한 Single Batch Overlap 기법Hopper GPU에서 MoE 모델의 compute와 communication을 overlap하여 추론 성능을 향상시킨다#SGLang#MoE#GPU Optimization#Inference2025년 12월 3일댓글 수 로딩 중
[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.#Triton#Blackwell#GPU#Optimization#MXFP82025년 12월 2일댓글 수 로딩 중
[Triton] Warp Specialization 중첩 루프 지원partition-schedule 패스를 재귀적으로 확장하고, tmem_alloc hoisting을 최상위로 수행하여 중첩 루프 E2E 지원#Triton#NVIDIA#Warp Specialization#Nested Loop#Pipelining2025년 12월 2일댓글 수 로딩 중
[Triton] MXFP 포맷 출력 matmul 버그 2건 수정MXFP downcast epilogue에서 scale 마스크 계산과 shared memory overflow 문제를 수정#Triton#MXFP#Matmul#Bug Fix2025년 12월 1일댓글 수 로딩 중
[pytest] async fixture를 플러그인 없이 요청 시 hard error로 전환pytest 9에서 async fixture를 처리할 플러그인 없이 요청하면 경고 대신 즉시 에러를 발생시키도록 변경#Python#pytest#async#Breaking Change#Fixtures2025년 11월 30일댓글 수 로딩 중
[vllm] W4A8 Marlin 커널 - 4비트 가중치 + 8비트 활성화 양자화Marlin 커널에 W4A8 지원을 추가하여 4비트 가중치와 8비트 활성화의 혼합 정밀도 추론 가능#vllm#Performance2025년 11월 29일댓글 수 로딩 중
[GPT-SoVITS] batch_size 변수의 부동소수점 타입 오류 수정GPU 메모리 기반 자동 배치 크기 계산에서 정수 나눗셈 결과가 float로 반환되어 PyTorch DataLoader가 실패하던 버그 수정 분석.#GPT-SoVITS#Python#Bug Fix#PyTorch#Training2025년 11월 28일댓글 수 로딩 중
[Feast] 시간 윈도우 집계를 위한 타일링(Tiling) 지원 구현Intermediate Representation 기반 타일링으로 스트리밍 시간 윈도우 집계 성능을 대폭 개선한다#Feast#Feature Store#Tiling#Streaming Aggregation2025년 11월 28일댓글 수 로딩 중
[Loki] 페이지 빌더 메모리 사전 할당 제거로 희소 컬럼 메모리 효율 개선Grafana Loki의 dataobj 페이지 빌더에서 최대 페이지 크기만큼 메모리를 사전 할당하던 것을, Go의 자연스러운 슬라이스 성장에 맡겨 희소 컬럼의 메모리 오버헤드를 줄인 최적화를 분석합니다.#Grafana Loki#Go#Memory#Performance#Data Object2025년 11월 27일댓글 수 로딩 중
[pydantic-ai] anthropic_cache_messages 설정 추가 및 캐시 포인트 자동 제한메시지 자동 캐싱과 Anthropic의 4-캐시-포인트 제한을 자동으로 관리하는 기능 추가#Python#Pydantic AI#Anthropic#Feature#Caching2025년 11월 25일댓글 수 로딩 중
[triton] Triton JIT 컴파일러 최적화: `inspect.getclosurevars` 제거를 통한 10,000배 성능 향상Triton JIT 컴파일러에서 `inspect.getclosurevars`를 제거하여 캡처 스코프 조회 속도를 10,000배 향상시켰습니다.#Triton#JIT#성능 최적화#Python#컴파일러#inspect2025년 11월 25일댓글 수 로딩 중
[Triton] AMD TDM 연산에 multi-CTA 및 multicast 지원 추가CGALayout 기반으로 TDM load/store에 멀티캐스트 마스크를 자동 설정하여 cluster 간 데이터 공유 가능#Triton#AMD#TDM#Multi-CTA#Multicast2025년 11월 24일댓글 수 로딩 중
[Loki] 테넌트 rate limit 기반 셔플 샤딩으로 쿼리 성능 향상Grafana Loki의 distributor에서 테넌트별 ingestion rate limit을 기반으로 셔플 샤딩을 적용하여, 저볼륨 테넌트의 세그먼트 키를 동일 파티션에 모아 쿼리 성능을 향상시킨 최적화를 분석합니다.#Grafana Loki#Go#Performance#Sharding#Distributed Systems#Query Optimization2025년 11월 24일댓글 수 로딩 중
[Grafana Loki] 파서의 문자열 인턴 셋에서 키 충돌 결과 캐싱 버그 수정internedStringSet이 키 충돌(duplicate suffix) 결과까지 캐싱하여 다른 스트림에 잘못된 라벨이 적용되던 버그를, 충돌 감지를 캐시 밖으로 이동하여 수정한 분석.#Grafana Loki#Go#Bug Fix#Parser#Performance2025년 11월 24일댓글 수 로딩 중
[triton] Triton Kernel의 Matrix Multiplication 리팩토링: 코드 가독성과 유지보수성 향상Triton의 행렬 곱셈 관련 모듈을 정리하고 변수 명명 규칙을 개선하여 코드의 일관성과 유지보수성을 높인 리팩토링 사례를 분석합니다.#Triton#GPU#Kernel#Refactoring#MatrixMultiplication2025년 11월 23일댓글 수 로딩 중
[Open WebUI] 외부 임베딩 API 호출을 병렬화하여 50배 성능 향상순차적으로 배치 처리하던 외부 임베딩 요청을 asyncio.gather로 병렬 실행하고, 동기 함수를 async로 전환하여 대규모 문서 처리 속도를 극적으로 개선한 최적화.#Open WebUI#Python#Performance#asyncio#Embeddings#RAG2025년 11월 23일댓글 수 로딩 중
[Ray] DefaultCollateFn 병렬화로 Arrow-to-Tensor 변환 가속ThreadPoolExecutor를 활용한 컬럼별 병렬 텐서 변환 최적화#Ray#PyTorch#Apache Arrow#Performance2025년 11월 22일댓글 수 로딩 중
[triton] Out-of-tree TTIR/TTGIR 패스 플러그인 시스템Triton에 플러그인 시스템을 도입하여 외부에서 TTIR/TTGIR 컴파일 패스를 등록하고 실행할 수 있도록 한 PR을 분석합니다. 동적 라이브러리 로딩과 C API 기반 확장 메커니즘을 살펴봅니다.#Triton#Plugin System#MLIR#Compiler Pass#Extensibility2025년 11월 22일댓글 수 로딩 중
[Triton] Gluon의 to_linear_layout에서 TensorMemory 레이아웃 지원to_linear_layout 함수가 Distributed, Shared에 더해 TensorMemory 인코딩도 처리할 수 있도록 확장#Triton#Gluon#NVIDIA#TensorMemory#LinearLayout2025년 11월 21일댓글 수 로딩 중
[pydantic-ai] Anthropic 캐시 가능 타입에 document 추가Anthropic prompt caching에서 document 타입이 누락되어 캐시가 적용되지 않던 문제를 수정#Python#Pydantic AI#Anthropic#Bug Fix#Caching2025년 11월 21일댓글 수 로딩 중