[triton] PyTorch 없이 Triton CUDA 백엔드 독립 사용 지원Triton의 CUDA 백엔드에서 PyTorch 의존성을 제거하여, 순수 Python 환경에서도 GPU 커널을 컴파일하고 실행할 수 있도록 한 PR을 분석합니다.#Triton#CUDA#PyTorch#Runtime#Independence2026년 3월 5일댓글 수 로딩 중
[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.#Triton#Gluon#GPU#MultiCTA#Optimization2026년 3월 5일댓글 수 로딩 중
[Open WebUI] KaTeX 유니코드 정규식 사전 컴파일로 마크다운 렌더링 87% 병목 제거Open WebUI에서 KaTeX 수식 감지 시 매번 유니코드 정규식을 컴파일하던 병목을 모듈 로드 시 한 번만 컴파일하도록 변경하고, katexStart 함수를 문자 단위 스캔으로 재작성한 최적화를 분석합니다.#Open WebUI#TypeScript#Performance#Regex#KaTeX#Unicode2026년 3월 5일댓글 수 로딩 중
[feast] Feast 성능 최적화: Timestamp 변환 비용 절감으로 온라인 피처 서빙 가속화Feast의 _convert_rows_to_protobuf 함수에서 Timestamp 변환을 최적화하여 성능을 크게 개선했습니다.#Feast#Python#성능 최적화#Protobuf#Timestamp#Feature Store2026년 3월 5일댓글 수 로딩 중
[Loki] 컨텍스트 취소 시 downstreamer goroutine 누수 방지Loki 쿼리 프론트엔드의 downstreamer에서 컨텍스트 취소 시 goroutine이 영구적으로 블로킹되는 누수를 select로 수정한 PR 분석.#Grafana Loki#Go#Goroutine Leak#Context Cancellation#Channel#Bug Fix2026년 3월 5일댓글 수 로딩 중
[Axolotl] MXFP4 양자화 지원 추가torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석#Axolotl#Quantization#MXFP4#QAT#LLM2026년 3월 5일댓글 수 로딩 중
[faster-qwen3-tts] SDPA 전환으로 BF16 StaticCache hidden-state 발산 수정eager attention에서 SDPA로 전환하여 StaticCache 패딩 길이에 따른 BF16 hidden-state 발산 문제를 해결한다#faster-qwen3-tts#TTS#CUDA Graphs#Attention2026년 3월 4일댓글 수 로딩 중
[Open WebUI] 저장 버튼 스피너 인라인 레이아웃 수정Open WebUI의 여러 모달에서 저장 버튼의 로딩 스피너가 레이아웃을 밀어내는 문제를 Tailwind CSS 클래스 조정으로 수정한 PR을 분석합니다.#Open WebUI#UI Fix#Svelte#Tailwind CSS#Layout2026년 3월 4일댓글 수 로딩 중
[Ray] NIXL 메타데이터 캐싱으로 GPU 텐서 전송 등록/해제 오버헤드 제거Ray의 Direct Transport에서 텐서 메모리 등록을 캐싱하여 반복적인 weight sync 시 NIXL 메타데이터 등록/해제 오버헤드를 제거한 PR 분석.#Ray#GPU#NIXL#Tensor Transport#Memory Registration#Performance2026년 3월 4일댓글 수 로딩 중
[sglang] SGLang, Helios 모델 통합으로 실시간 장편 비디오 생성의 새로운 지평을 열다SGLang이 Helios 모델을 통합하여 실시간 장편 비디오 생성 성능을 혁신적으로 개선했습니다.#SGLang#Helios#비디오 생성#AI 모델#최적화2026년 3월 4일댓글 수 로딩 중
[sglang] MoE 모델 추론 최적화: Triton 커널 퓨전을 통한 TTFT 28% 개선MoE 모델 추론 시 `fused_moe_triton`과 `moe_sum_all_reduce` 커널 퓨전으로 TTFT를 28% 개선했습니다.#MoE#Triton#Kernel Fusion#GPU Optimization#LLM Inference#SGLang2026년 3월 4일댓글 수 로딩 중
[triton] Profile scratch용 기본 allocator 제공ConSan 등 instrumentation이 profile scratch memory를 사용할 때, 사용자가 별도 allocator를 설정하지 않아도 드라이버 기본 allocator로 동작하도록 개선한 PR을 분석합니다.#Triton#Instrumentation#Memory Allocation#ConSan#Developer Experience2026년 3월 3일댓글 수 로딩 중
[triton] MultiCTA Membar에 Fence + Cluster Relaxed 자동 삽입Triton의 MultiCTA 환경에서 cross-CTA mbarrier에 fence_mbarrier_init과 cluster arrive/wait를 자동 삽입하여 동기화 정합성을 보장하는 PR 분석.#Triton#NVIDIA#MultiCTA#Membar#Fence#ClusterBarrier2026년 3월 3일댓글 수 로딩 중
[triton] AMD Software Warp Pipeline에서 크래시 수정AMD GPU의 ConvertWarpPipeline pass에서 AsyncWaitOp을 barrier로 인식하지 못해 발생하던 크래시를 수정하고 barrier 정렬 로직을 개선한 PR 분석.#Triton#AMD#WarpPipeline#AsyncWait#BugFix#SWP2026년 3월 3일댓글 수 로딩 중
[triton] AMD BlockPingpong 패스의 non-MFMA dot 크래시 수정AMD BlockPingpong 최적화가 FMA 기반 dot 연산에 적용되어 발생하던 크래시를 안전한 타입 캐스팅으로 수정한 PR을 분석합니다.#Triton#AMD#Bug Fix#Pingpong#MFMA2026년 3월 3일댓글 수 로딩 중
[faster-qwen3-tts] HF Space에 1000자 텍스트 제한 추가로 CUDA static cache overflow 방지StaticCache의 max_seq_len=2048을 초과하는 입력을 차단하기 위해 텍스트와 오디오 크기 제한을 서버에 추가한다#faster-qwen3-tts#TTS#Security#Input Validation2026년 3월 3일댓글 수 로딩 중
[triton] AMD GFX1250 MachineSink 이슈 우회를 위한 fence 추가LLVM의 MachineSink 최적화가 LDS load를 barrier 너머로 이동시키는 버그를 우회하기 위해, AMD GFX1250 타겟에 compiler fence를 삽입한 PR을 분석합니다.#Triton#AMD GPU#LLVM#Compiler Bug#Workaround2026년 3월 3일댓글 수 로딩 중
[pydantic-ai] 병렬 도구 실행 시 예외 발생 시 형제 태스크 취소 버그 수정asyncio 병렬 도구 실행에서 CancelledError 외 예외 발생 시 형제 태스크가 고아 상태로 남는 버그를 수정한 사례를 분석합니다.#pydantic-ai#asyncio#Python#Bug Fix#Concurrency2026년 3월 2일댓글 수 로딩 중
[Ray] 워커 리스너 스레드 최적화: list를 frozenset으로 교체에러 메시지 폴링 루프에서 매번 생성되던 리스트를 frozenset으로 캐싱#Ray#Performance2026년 3월 2일댓글 수 로딩 중
[Triton] FenceAsync에 비동기 읽기 의존성 추가 — st.shared와 copy_local_to_global 간 정합성 보장비동기 프록시 읽기 연산에 대한 fence 삽입 누락 버그를 수정하여 공유 메모리 쓰기와 글로벌 복사 간 데이터 정합성을 보장한다#Triton#MLIR#NVIDIA#Memory Fence#GPU Compiler2026년 3월 2일댓글 수 로딩 중