[triton] AMD Batched WMMA Scaled에서 스케일 레이아웃 수정AMD gfx1250 GPU의 batched WMMA scaled 연산에서 스케일 텐서의 차원 순서 처리 버그를 수정하고 batched 테스트를 추가한 PR 분석.#Triton#AMD#WMMA#Scale#BatchedMatMul#BugFix2026년 2월 23일댓글 수 로딩 중
[Ray] Dashboard 죽은 노드 캐시의 변수 섀도잉 버그 수정dead node 캐시 오버플로우 시 evict할 노드 ID가 현재 노드 ID를 섀도잉하여 살아있는 노드가 삭제되는 버그 수정 분석.#Ray#Python#Bug Fix#Dashboard#Caching2026년 2월 23일댓글 수 로딩 중
[Triton] 2CTA Block Scale MMA with tcgen05.cp — 두 CTA 협력 행렬 곱셈두 CTA가 협력하는 Block Scale MMA의 전체 경로(TMA→cp→MMA→commit)를 tcgen05.cp 명령으로 구현한다#Triton#NVIDIA#Blackwell#2CTA#MMA#tcgen052026년 2월 23일댓글 수 로딩 중
[triton] 캐시 테스트를 Device Agnostic하게 개선하드코딩된 device index 0을 실제 현재 디바이스 ID로 교체하여 모든 GPU 백엔드에서 캐시 테스트가 동작하도록 수정한 사례를 분석합니다.#Triton#Testing#Cache#DeviceAgnostic2026년 2월 23일댓글 수 로딩 중
[Grafana Loki] 블룸 필터 캐시를 맵으로 교체하여 운영 복잡도 제거ingest-limits-frontend의 스트림 캐시에서 블룸 필터를 Go map으로 교체하여, 사전 크기 설정 불필요와 false positive 제거를 동시에 달성한 분석.#Grafana Loki#Go#Performance#Cache#Data Structure2026년 2월 23일댓글 수 로딩 중
[Open WebUI] 메시지 전송마다 발생하는 불필요한 채팅 JSON 역직렬화 2회 제거메시지 전송 시 소유권 확인과 폴더 조회를 위해 전체 채팅 JSON을 2번 불필요하게 역직렬화하던 문제를 EXISTS 쿼리와 단일 컬럼 조회로 해결한 PR 분석.#Open WebUI#Database#SQLAlchemy#Query Optimization#Performance2026년 2월 21일댓글 수 로딩 중
[faster-qwen3-tts] 모드 간 성능 동등성 검증 및 벤치마크 비교 문서화VoiceClone, CustomVoice, ICL 모드가 CUDA graph 캡처 후 동일한 성능을 보이는지 검증하고 벤치마크를 문서화한다#faster-qwen3-tts#TTS#Benchmark#Documentation2026년 2월 21일댓글 수 로딩 중
[triton] AMD gfx1250 MXFP Flash Attention 예제 커널 업데이트AMD gfx1250 GPU의 MXFP Flash Attention Gluon 예제에서 레이아웃 선택, 공유 메모리 관리, TDM 로드 추상화를 대폭 개선한 PR 분석.#Triton#AMD#gfx1250#FlashAttention#MXFP#Gluon2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] README 비스트리밍 RTF 수치 업데이트Jetson AGX Orin의 non-streaming RTF을 1.36에서 1.57로 업데이트하여 최신 벤치마크를 반영한다#faster-qwen3-tts#TTS#Documentation#Benchmark2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] CustomVoice/VoiceDesign 지원, CLI, PyPI 배포, 스트리밍 UX 개선CustomVoice와 VoiceDesign 모드 지원을 추가하고, CLI 도구와 PyPI 배포를 구현하며 스트리밍 UX를 개선한다#faster-qwen3-tts#TTS#CLI#CustomVoice2026년 2월 20일댓글 수 로딩 중
[triton] AMD TensorDescType의 Shared Memory 크기 계산 수정WarpSpecialize capture에서 TensorDescType의 크기를 정확히 계산하도록 수정하여 shared memory 할당 오류를 방지한 사례를 분석합니다.#Triton#AMD#GPU#WarpSpecialize#SharedMemory2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] 패키지 리네이밍 및 코드 간소화qwen3_tts_cuda_graphs에서 faster_qwen3_tts로 리네이밍하고 불필요한 코드를 정리한다#faster-qwen3-tts#TTS#Refactoring#Naming2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] 공식 Qwen3-TTS 기반으로 포팅 및 벤치마크 대폭 향상커뮤니티 streaming fork에서 공식 Qwen3-TTS 저장소로 기반을 전환하고, repetition penalty 벡터화로 RTF 5.56 달성#faster-qwen3-tts#TTS#CUDA Graphs#Performance2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] 로컬 모델 경로를 HuggingFace Hub ID로 전환하여 배포 간소화Qwen3-TTS CUDA Graphs 프로젝트에서 하드코딩된 로컬 모델 경로를 HuggingFace Hub ID로 교체하고, config 파싱 로직을 제거하여 코드를 단순화한 사례를 분석합니다.#Qwen3-TTS#HuggingFace#Model Loading#Python#Refactoring2026년 2월 20일댓글 수 로딩 중
[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.#Grafana Loki#Go#Performance#Encoding#Benchmark#Data Object2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성Jetson Thor 결과를 추가하고, streaming TTFA 측정 방식을 개선하며 블로그 포스트의 수치를 업데이트한다#faster-qwen3-tts#TTS#Benchmark#Jetson2026년 2월 20일댓글 수 로딩 중
[triton] Triton AMD GPU: 버퍼 로드 루프 내 주소 계산 최적화루프 내 버퍼 로드 시 오프셋 기반 주소 계산을 베이스 포인터 증분 방식으로 변경하여 연산 효율성을 개선했습니다.#Triton#AMD#Compiler Optimization#MLIR#GPU2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가NVIDIA Jetson Thor에서의 벤치마크 결과를 README와 블로그에 추가한다#faster-qwen3-tts#TTS#Benchmark#Jetson Thor2026년 2월 20일댓글 수 로딩 중
[triton] MemDescSubslice에서 Non-CTA 차원 슬라이싱 지원multi-CTA 레이아웃에서 broadcasted CTA와 CTA 차원 분할을 올바르게 처리하도록 메모리 슬라이싱 검증 로직을 개선한 사례를 분석합니다.#Triton#GPU#MultiCTA#SharedMemory#LinearLayout2026년 2월 20일댓글 수 로딩 중
[triton] Async TMA Lowering에서 Cluster Barrier 로직 수정Triton의 TMA 비동기 복사에서 cluster barrier 사용 조건과 cross-CTA mbarrier init 동기화를 수정한 PR 분석.#Triton#NVIDIA#TMA#ClusterBarrier#MultiCTA#BugFix2026년 2월 19일댓글 수 로딩 중