[triton] Expert Parallelism 기본 구현과 Reduce 커널 추가Triton Kernels 라이브러리에 Expert Parallelism을 위한 기본 구현과 독립적인 reduce 커널을 추가하여 MoE 워크로드의 분산 처리를 지원하는 PR 분석.#Triton#ExpertParallelism#MoE#Reduce#Distributed#GPU2025년 10월 16일댓글 수 로딩 중
[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.#Triton#AMD#LDS#LinearLayout#SharedMemory#Optimization2025년 10월 16일댓글 수 로딩 중
[Loki] 쿼리 엔진에 Parallelize 힌트 노드 추가물리 실행 계획에 Parallelize 노드를 추가하여 스케줄러의 병렬 작업 분배 기반 마련.#Grafana Loki#Go#Performance#Query Engine#Parallelism2025년 10월 16일댓글 수 로딩 중
[pydantic-ai] RunUsage.tool_calls race condition 수정 revert — asyncio.Lock 제거asyncio.Lock으로 tool_calls 카운터를 보호하던 수정을 revert하고 더 근본적인 해결을 준비#Python#Pydantic AI#Concurrency#Revert#asyncio2025년 10월 15일댓글 수 로딩 중
[pydantic-ai] RunUsage.tool_calls 병렬 실행 시 과소 집계 버그 수정 (asyncio.Lock)병렬 tool 실행 시 asyncio task 간 race condition으로 tool_calls가 누락되는 문제를 Lock으로 수정#Python#Pydantic AI#Concurrency#Bug Fix#asyncio2025년 10월 15일댓글 수 로딩 중
[triton] Warp Specialization: OptimizePartitionWarps와 SWP 순서 교환으로 어노테이션 보존OptimizePartitionWarps 패스가 local_load의 루프 어노테이션을 삭제하는 문제를 해결하기 위해 SWP(Software Warp Pipelining) 이후로 실행 순서를 변경한 분석.#Triton#Warp Specialization#Compiler Pass#MLIR#Pipeline2025년 10월 14일댓글 수 로딩 중
[Ray] Data CI 파이프라인 병렬성 확대로 테스트 실행 시간 단축Ray Data의 CI 파이프라인에서 parallel 테스트의 워커 수를 2에서 8로 늘리고, non-parallel 테스트에도 3-way 병렬성을 추가하여 전체 CI 실행 시간을 단축한 최적화를 분석합니다.#Ray#CI/CD#Performance#Testing#Parallelism2025년 10월 14일댓글 수 로딩 중
[triton] AMD: range analysis 버그 수정 및 buffer-ops의 range analysis 의존성 강화tl.assume의 제어 흐름 관계 미고려, make_range 범위 오류 등 range analysis의 근본적 버그를 수정하고 buffer-ops가 올바른 범위 검증을 수행하도록 개선한 분석.#Triton#AMD#Range Analysis#Buffer Operations#Large Tensor#Bug Fix2025년 10월 12일댓글 수 로딩 중
[sglang] SGLang에 Piecewise CUDA Graph 및 Torch Compile 백엔드 도입SGLang 추론 엔진에 piecewise CUDA graph capture와 torch.compile 백엔드를 통합하여 LLM 서빙 성능을 향상시킨다#CUDA Graph#torch.compile#LLM Inference#SGLang2025년 10월 12일댓글 수 로딩 중
[Triton] split_k에 m*n 제약 조건 추가matmul에서 split_k 사용 시 m*n 크기에 대한 제약을 검증하는 테스트와 로직 추가#Triton#Compiler2025년 10월 11일댓글 수 로딩 중
[pydantic-ai] 병렬 tool call 제한 적용 방식 개선 — 사전 검증으로 전환tool_calls_limit을 개별 tool 실행 시점이 아닌 batch 실행 전에 한번에 검증하도록 변경#Python#Pydantic AI#Concurrency#Bug Fix#Architecture2025년 10월 3일댓글 수 로딩 중
[triton] Gluon에 mma_scaled 연산 헬퍼 및 실행 테스트 추가Triton Gluon 프론트엔드에 Blackwell tcgen05_mma_scaled 연산을 지원하는 헬퍼 함수와 실행 테스트를 추가한 PR 분석.#Triton#Gluon#Blackwell#MMA#Scaled#TensorCore2025년 10월 9일댓글 수 로딩 중
[Open WebUI] RecursiveFolder 컴포넌트 지연 로딩으로 페이지 로드 속도 개선폴더가 열릴 때만 하위 항목을 요청하여 초기 로딩 시 불필요한 API 호출 제거#Open WebUI#Performance2025년 10월 9일댓글 수 로딩 중
[Triton] gfx1250에서 TDM Store 지원 추가AMD gfx1250 타겟에서 Tensor Data Mover를 통한 shared-to-global 비동기 store 연산 구현#Triton#AMD#gfx1250#TDM#Async2025년 10월 9일댓글 수 로딩 중
[Triton] Blackwell barrierSlice 타이핑 버그 수정numStages가 1일 때 barrierSlice 생성에서 발생하는 타입 불일치 버그를 수정#Triton#NVIDIA#Blackwell#Bug Fix#Barrier2025년 10월 9일댓글 수 로딩 중
[Grafana Loki] GetShards 호출에서 청크 크기 정보를 인덱스에서 직접 가져와 48% 성능 향상인덱스를 두 번 읽던 GetShards 로직을 한 번의 읽기로 통합하여 응답 시간 48%, 메모리 27% 절감을 달성한 최적화 분석.#Grafana Loki#Go#Performance#Index Query#TSDB2025년 10월 9일댓글 수 로딩 중
[Triton] gfx950에서 PaddedLayout + AsyncCopy 파이프라이닝 지원AMD CDNA 아키텍처에서 padded shared memory 레이아웃을 AsyncCopy와 함께 사용할 수 있도록 파이프라인 lowering을 확장#Triton#AMD#AsyncCopy#Padding#Pipeline2025년 10월 7일댓글 수 로딩 중
[Open WebUI] 리랭킹 모델의 pad_token_id 미설정 시 배치 처리 실패 수정pad_token_id가 없는 리랭킹 모델에서 배치 크기 1 초과 시 발생하는 오류를 eos_token_id 폴백으로 해결한 수정 분석.#Open WebUI#Python#Bug Fix#Reranking#Transformers2025년 10월 7일댓글 수 로딩 중
[Triton] swizzling=0 matrix descriptor 지원과 WGMMA lowering 일반화swizzling이 0인 경우의 matrix descriptor 생성과 SharedLinearEncoding 기반의 WGMMA lowering을 구현#Triton#NVIDIA#WGMMA#Hopper#SharedLayout2025년 10월 6일댓글 수 로딩 중
[Triton] ds_read_tr + padded layout에서 vec size를 min interval로 제한padded shared memory 레이아웃에서 ds_read_tr의 벡터 크기가 padding 간격을 초과하지 않도록 수정#Triton#AMD#Shared Memory#Padding#Bug Fix2025년 10월 6일댓글 수 로딩 중