PR Analysis

[pytorch] MPS: 2-pass SDPA의 메모리 손상을 float accumulator 강제로 수정

Apple MPS 백엔드의 2-pass Scaled Dot-Product Attention에서 half precision accumulator로 인한 메모리 손상 버그를 float32 강제 전환으로 해결한 사례를 분석합니다.

#PyTorch #MPS #SDPA #Attention #Precision #Apple Silicon #Bug Fix

2026년 2월 24일

[Grafana Loki] 쿼리 엔진 aggregator의 자료구조를 개선하여 38% 성능 향상

groupState에서 라벨 데이터를 분리하고, 라벨 목록을 맵으로 변경하며, BuildRecord의 선형 탐색을 제거하여 메트릭 쿼리 실행 시간을 38% 단축한 분석.

#Grafana Loki #Go #Performance #Query Engine #Data Structure #Aggregation

2026년 2월 24일

[triton] 캐시 테스트를 Device Agnostic하게 개선

하드코딩된 device index 0을 실제 현재 디바이스 ID로 교체하여 모든 GPU 백엔드에서 캐시 테스트가 동작하도록 수정한 사례를 분석합니다.

#Triton #Testing #Cache #DeviceAgnostic

2026년 2월 23일

[triton] AMD Batched WMMA Scaled에서 스케일 레이아웃 수정

AMD gfx1250 GPU의 batched WMMA scaled 연산에서 스케일 텐서의 차원 순서 처리 버그를 수정하고 batched 테스트를 추가한 PR 분석.

#Triton #AMD #WMMA #Scale #BatchedMatMul #BugFix

2026년 2월 23일

[Ray] Dashboard 죽은 노드 캐시의 변수 섀도잉 버그 수정

dead node 캐시 오버플로우 시 evict할 노드 ID가 현재 노드 ID를 섀도잉하여 살아있는 노드가 삭제되는 버그 수정 분석.

#Ray #Python #Bug Fix #Dashboard #Caching

2026년 2월 23일

[Triton] 2CTA Block Scale MMA with tcgen05.cp — 두 CTA 협력 행렬 곱셈

두 CTA가 협력하는 Block Scale MMA의 전체 경로(TMA→cp→MMA→commit)를 tcgen05.cp 명령으로 구현한다

#Triton #NVIDIA #Blackwell #2CTA #MMA #tcgen05

2026년 2월 23일

[Grafana Loki] 블룸 필터 캐시를 맵으로 교체하여 운영 복잡도 제거

ingest-limits-frontend의 스트림 캐시에서 블룸 필터를 Go map으로 교체하여, 사전 크기 설정 불필요와 false positive 제거를 동시에 달성한 분석.

#Grafana Loki #Go #Performance #Cache #Data Structure

2026년 2월 23일

[Open WebUI] 메시지 전송마다 발생하는 불필요한 채팅 JSON 역직렬화 2회 제거

메시지 전송 시 소유권 확인과 폴더 조회를 위해 전체 채팅 JSON을 2번 불필요하게 역직렬화하던 문제를 EXISTS 쿼리와 단일 컬럼 조회로 해결한 PR 분석.

#Open WebUI #Database #SQLAlchemy #Query Optimization #Performance

2026년 2월 21일

[faster-qwen3-tts] 모드 간 성능 동등성 검증 및 벤치마크 비교 문서화

VoiceClone, CustomVoice, ICL 모드가 CUDA graph 캡처 후 동일한 성능을 보이는지 검증하고 벤치마크를 문서화한다

#faster-qwen3-tts #TTS #Benchmark #Documentation

2026년 2월 21일

[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트

AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.

#Triton #AMD #gfx1250 #FlashAttention #MXFP #Gluon

2026년 2월 20일

[faster-qwen3-tts] README 비스트리밍 RTF 수치 업데이트

Jetson AGX Orin의 non-streaming RTF을 1.36에서 1.57로 업데이트하여 최신 벤치마크를 반영한다

#faster-qwen3-tts #TTS #Documentation #Benchmark

2026년 2월 20일

[faster-qwen3-tts] CustomVoice/VoiceDesign 지원, CLI, PyPI 배포, 스트리밍 UX 개선

CustomVoice와 VoiceDesign 모드 지원을 추가하고, CLI 도구와 PyPI 배포를 구현하며 스트리밍 UX를 개선한다

#faster-qwen3-tts #TTS #CLI #CustomVoice

2026년 2월 20일

[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정

WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.

#Triton #AMD #GPU #WarpSpecialize #SharedMemory

2026년 2월 20일

[faster-qwen3-tts] 패키지 리네이밍 및 코드 간소화

qwen3_tts_cuda_graphs에서 faster_qwen3_tts로 리네이밍하고 불필요한 코드를 정리한다

#faster-qwen3-tts #TTS #Refactoring #Naming

2026년 2월 20일

[faster-qwen3-tts] 공식 Qwen3-TTS 기반으로 포팅 및 벤치마크 대폭 향상

커뮤니티 streaming fork에서 공식 Qwen3-TTS 저장소로 기반을 전환하고, repetition penalty 벡터화로 RTF 5.56 달성

#faster-qwen3-tts #TTS #CUDA Graphs #Performance

2026년 2월 20일

[faster-qwen3-tts] 로컬 모델 경로를 HuggingFace Hub ID로 전환하여 배포 간소화

Qwen3-TTS CUDA Graphs 프로젝트에서 하드코딩된 로컬 모델 경로를 HuggingFace Hub ID로 교체하고, config 파싱 로직을 제거하여 코드를 단순화한 사례를 분석합니다.

#Qwen3-TTS #HuggingFace #Model Loading #Python #Refactoring

2026년 2월 20일

[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화

표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.

#Grafana Loki #Go #Performance #Encoding #Benchmark #Data Object

2026년 2월 20일

[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성

Jetson Thor 결과를 추가하고, streaming TTFA 측정 방식을 개선하며 블로그 포스트의 수치를 업데이트한다

#faster-qwen3-tts #TTS #Benchmark #Jetson

2026년 2월 20일

[triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화

루프 내 버퍼 로드 시 오프셋 기반 주소 계산을 베이스 포인터 증분 방식으로 변경하여 연산 효율성을 개선했습니다.

#Triton #AMD #Compiler Optimization #MLIR #GPU

2026년 2월 20일

[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가

NVIDIA Jetson Thor에서의 벤치마크 결과를 README와 블로그에 추가한다

#faster-qwen3-tts #TTS #Benchmark #Jetson Thor

2026년 2월 20일