[triton] Backend별 global_scratch_alloc 할당 통합Proton 프로파일러의 scratch 메모리를 별도 풀로 분리하고, third-party allocation 지원을 추가하여 global scratch 메모리 관리를 통합한 사례를 분석합니다.#Triton#GPU#MemoryAllocation#Proton#Refactoring2026년 2월 26일댓글 수 로딩 중
[triton] Gluon에서 3D Dot FMA 연산 노출Triton Gluon 프론트엔드에서 batched(3D) matrix multiplication을 FMA dot 연산으로 지원하도록 확장한 PR 분석.#Triton#Gluon#DotFMA#BatchedMatMul#3D#GPU2026년 2월 25일댓글 수 로딩 중
[Loki] TSDBIndex.GetChunkRefs에서 불필요한 라벨 조회 제거청크 참조만 필요한 경우 라벨 디코딩을 건너뛰어 할당 30% 감소#Grafana Loki#TSDB#Index Optimization#Performance2026년 2월 25일댓글 수 로딩 중
[Loki] TSDB 풀에 전체 슬라이스를 올바르게 반환하여 메모리 할당 99.6% 감소defer 시점의 슬라이스 캡처 버그를 수정하여 오브젝트 풀 효과 복원#Loki#Performance2026년 2월 25일댓글 수 로딩 중
[pytorch] CI: vLLM 테스트/벤치마크 워크플로우를 CUDA 13.0으로 전환PyTorch의 vLLM 통합 테스트와 벤치마크 워크플로우를 CUDA 12.9에서 13.0으로 전환하고, Blackwell GPU(sm_120) 아키텍처 지원을 추가한 사례를 분석합니다.#PyTorch#vLLM#CI#CUDA#Blackwell#GitHub Actions2026년 2월 25일댓글 수 로딩 중
[Open WebUI] get_tools()에서 빈 tool_ids 조기 반환 최적화tool_ids가 비어있을 때 불필요한 DB 쿼리를 건너뛰는 가드 절 추가#Open WebUI#Python#Database#Performance2026년 2월 25일댓글 수 로딩 중
[Ray Serve] Direct Ingress 최적화: 상수 순서 정리 및 빈 프록시 조기 반환Ray Serve에서 HAProxy 관련 상수 초기화 순서를 수정하고 빈 proxy handles 순회를 방지하는 간결한 최적화 PR 분석.#Ray#Ray Serve#Direct Ingress#HAProxy#Performance#Early Return2026년 2월 25일댓글 수 로딩 중
[Ray RLlib] space_utils.batch()에서 np.stack 대신 사전 할당 배열로 연결 속도 개선수백~수천 개의 배열을 배치 처리할 때 np.stack 대신 np.empty로 사전 할당 후 복사하는 방식으로 전환하여 불필요한 연결 오버헤드를 제거한 최적화 분석.#Ray#Python#Performance#NumPy#RLlib2026년 2월 25일댓글 수 로딩 중
[Loki] 싱크에 쓰기 전 레코드 배치 처리로 라운드트립 감소개별 레코드 전송을 배치로 묶어 싱크 쓰기 대기 시간을 크게 줄임#Loki#Performance2026년 2월 24일댓글 수 로딩 중
[Loki] 빈 레이블 제거에 더 단순한 함수 사용labels.NewBuilder().Labels() 대신 WithoutEmpty()로 불필요한 할당 제거#Loki#Performance2026년 2월 24일댓글 수 로딩 중
[triton] Triton Gluon을 활용한 Blackwell 아키텍처에서의 Multi-CTA 행렬 곱셈 최적화Blackwell GPU의 Multi-CTA 환경에서 CLC(Cluster Launch Control)를 활용한 행렬 곱셈 성능 최적화 및 메모리 레이아웃 개선 분석.#Triton#Blackwell#GPU#MatMul#HPC2026년 2월 24일댓글 수 로딩 중
[Ray] 다중 gRPC 연결로 오브젝트 전송 처리량 향상GRPC_ARG_USE_LOCAL_SUBCHANNEL_POOL 옵션으로 오브젝트 매니저의 gRPC 연결을 다중화하여 전송 대역폭을 확대한 분석.#Ray#C++#Performance#gRPC#Networking2026년 2월 24일댓글 수 로딩 중
[Loki] 쿼리 엔진 정합성 테스트 병렬 실행으로 CI 시간 15% 단축Grafana Loki의 구/신 쿼리 엔진 정합성 테스트에서 순차 실행되던 두 엔진 쿼리를 errgroup을 활용해 병렬로 실행하여 전체 테스트 시간을 15% 줄인 최적화를 분석합니다.#Grafana Loki#Go#Testing#Performance#Parallelism#errgroup2026년 2월 24일댓글 수 로딩 중
[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.#Ray#Python#Performance#Deadlock#Memory Management#Data Pipeline2026년 2월 24일댓글 수 로딩 중
[Triton] AsyncCompileMode 에러 발생 시 active_mode 초기화 보장context manager exit에서 예외 발생 시에도 active_mode를 None으로 설정하여 후속 컴파일 블록킹 방지#Triton#Python#Bug Fix#Error Handling#Async Compilation2026년 2월 24일댓글 수 로딩 중
[Grafana Loki] 오브젝트 스토어 클라이언트에 요청 레이턴시 히스토그램 메트릭 추가기존 Thanos 클라이언트의 e2e 메트릭과 별개로, 요청 헤징 후 실제 라운드트립 레이턴시를 측정하는 네이티브 히스토그램 메트릭을 추가한 분석.#Grafana Loki#Go#Performance#Observability#Prometheus2026년 2월 24일댓글 수 로딩 중
[faster-qwen3-tts] nano-parakeet으로 참조 오디오 자동 전사 기능 추가데모 UI에서 참조 오디오 업로드 시 nano-parakeet ASR 모델로 텍스트를 자동 전사하여 UX를 개선한다#faster-qwen3-tts#TTS#ASR#Demo2026년 2월 24일댓글 수 로딩 중
[Gradio] 서브탭/아코디언 컴포넌트 Lazy Loading 도입비활성 탭과 닫힌 아코디언의 자식 컴포넌트를 지연 렌더링하여 초기 로드 성능을 개선한다#Gradio#Lazy Loading#Frontend Performance#Svelte2026년 2월 24일댓글 수 로딩 중
[pytorch] MPS: 2-pass SDPA의 메모리 손상을 float accumulator 강제로 수정Apple MPS 백엔드의 2-pass Scaled Dot-Product Attention에서 half precision accumulator로 인한 메모리 손상 버그를 float32 강제 전환으로 해결한 사례를 분석합니다.#PyTorch#MPS#SDPA#Attention#Precision#Apple Silicon#Bug Fix2026년 2월 24일댓글 수 로딩 중
[Grafana Loki] 쿼리 엔진 aggregator의 자료구조를 개선하여 38% 성능 향상groupState에서 라벨 데이터를 분리하고, 라벨 목록을 맵으로 변경하며, BuildRecord의 선형 탐색을 제거하여 메트릭 쿼리 실행 시간을 38% 단축한 분석.#Grafana Loki#Go#Performance#Query Engine#Data Structure#Aggregation2026년 2월 24일댓글 수 로딩 중