[Triton] Gluon Dialect verifier 강화 및 에러 메시지 개선NVMMASharedEncoding 검증, TMA 함수 verifier 추가, DotOpMMASmemLoader를 fallible하게 변경하여 illegal instruction 방지#Triton#Gluon#MLIR#Verifier#Error Handling2025년 12월 14일댓글 수 로딩 중
[triton] AMD: Warp Pipeline 지원 추가 - Gluon 프론트엔드부터 LLVM lowering까지AMD GPU에서 서로 다른 warp가 staggered 스테이지를 실행하는 warp-pipelined 루프를 Gluon API부터 LLVM IR까지 지원하는 전체 파이프라인 구현 분석.#Triton#AMD#Warp Pipeline#Gluon#LLVM#GPU Optimization2025년 12월 11일댓글 수 로딩 중
[Triton] ConSan에 버퍼 aliasing 지원 추가 — 메모리 안전성 분석 강화ConSan(Concurrency Sanitizer)에 BufferRegion 기반 aliasing 분석을 추가하여 겹치는 버퍼 간 동시성 버그를 감지한다#Triton#ConSan#Aliasing#Memory Safety#Static Analysis2025년 12월 11일댓글 수 로딩 중
[Triton] WGMMA register pipelining에서 누락된 wait 삽입 수정Persistent matmul epilogue에서 accumulator 접근 시 필요한 wgmma wait 누락 버그 수정#Triton#NVIDIA#MLIR#Bug Fix#Pipelining2025년 12월 11일댓글 수 로딩 중
[Triton] MXFP4→BF16 변환에서 mul.bf16x2 강제 사용 — 1% MoE 성능 향상LLVM 자동 벡터화 실패를 우회하여 ptxas가 HMUL2 명령어를 생성하도록 유도#Triton#NVIDIA#Performance#PTX#Inline Assembly2025년 12월 11일댓글 수 로딩 중
[Ray Data] LLM 배치 추론에서 개별 행 실패 시에도 작업을 계속하는 에러 핸들링 추가하나의 잘못된 프롬프트로 전체 배치가 중단되던 문제를 should_continue_on_error 옵션으로 해결하여, 실패 행은 에러 컬럼으로 표시하고 나머지는 정상 처리하는 기능 분석.#Ray#Python#LLM#Batch Inference#Error Handling2025년 12월 10일댓글 수 로딩 중
[Triton] preload에 optional device 인자 추가JIT 함수의 preload 메서드에 device 인자를 추가하여 특정 디바이스에서 커널을 사전 로드할 수 있도록 개선#Triton#JIT#Frontend#Python2025년 12월 9일댓글 수 로딩 중
[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다#Triton#MXFP#Shared Memory#Matrix Multiplication#Performance Tuning2025년 12월 9일댓글 수 로딩 중
[vllm] group_topk 커널 최적화 - 1.9% Throughput, 2.1% TPOT 개선MoE 라우팅의 group_topk CUDA 커널을 템플릿 기반으로 최적화하여 분기 제거와 루프 언롤링 적용#vllm#Performance2025년 12월 9일댓글 수 로딩 중
[Ray] 단일 노드 RDT 마이크로벤치마크 도입NCCL/GLOO 기반 텐서 전송의 처리량과 지연 시간을 정밀 측정하는 벤치마크 추가#Ray#Performance2025년 12월 9일댓글 수 로딩 중
[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.#Triton#GPU#Optimization#MXFP8#MatMul2025년 12월 8일댓글 수 로딩 중
[triton] 손상된 캐시 파일에 대한 방어적 처리 추가JSON 캐시 파일 읽기 시 발생할 수 있는 파싱 오류를 try-except로 처리하여 손상된 캐시로 인한 크래시를 방지한 사례를 분석합니다.#Triton#Cache#Robustness#BugFix2025년 12월 6일댓글 수 로딩 중
[CPython] CPython RemoteUnwinder 프레임 캐싱으로 메모리 읽기 최적화last_profiled_frame 포인터와 프레임 캐시로 원격 프로파일링 시 메모리 읽기를 대폭 줄이는 최적화#Python#CPython#Profiling#Performance2025년 12월 6일댓글 수 로딩 중
[triton] 벤치마크에서 symmetric memory 해제분산 환경 벤치마크와 테스트에서 각 실행 후 symmetric memory pool을 명시적으로 해제하여 메모리 누수를 방지하도록 개선한 PR을 분석합니다.#Triton#Benchmark#Distributed#Memory Management2025년 12월 5일댓글 수 로딩 중
[llm-compressor] Disable LM Head - 불필요한 LM Head 연산 비활성화양자화 캘리브레이션에서 LM Head 레이어의 forward pass를 비활성화하여 시간과 메모리 절약#llm-compressor#Performance2025년 12월 5일댓글 수 로딩 중
[Triton] Hopper에서 소규모 배치 크기 벤치마크 수정Hopper GPU에서 small batch MLP 벤치마크의 num_warps 설정과 테스트 케이스 추가#Triton#Benchmark#Hopper#MLP#Bug Fix2025년 12월 4일댓글 수 로딩 중
[Triton] SwiGLU exp2 최적화 부분 롤백 — 수치 정확도 우선exp2_ftz 최적화가 일부 모델에서 수치 차이를 유발하여 일시 롤백#Triton#Kernel#Numerical Stability#Revert#SwiGLU2025년 12월 4일댓글 수 로딩 중
[Ray] StreamingRepartition과 MapBatches 연산자 퓨전으로 스케줄링 오버헤드 제거Ray Data의 StreamingRepartition과 MapBatches를 퓨전하여 불필요한 스케줄링 오버헤드를 줄이고 collate 성능을 개선한 분석.#Ray#Python#Performance#Operator Fusion#Distributed Computing2025년 12월 3일댓글 수 로딩 중
[vllm] xxHash로 Prefix Caching 해싱 성능 가속고성능 해시 함수 xxHash를 도입하여 prefix caching의 블록 해시 계산 속도를 대폭 개선#vllm#Performance2025년 12월 3일댓글 수 로딩 중
[Triton] 성능 진단 테스트에서 stack trace 생성 비활성화diagnostics context에서 stacktraces 옵션 제거로 테스트 시간 15분 → 1초 이하로 단축#Triton#Testing#Performance#Developer Experience2025년 12월 3일댓글 수 로딩 중