#Shared Memory

15개의 포스트

[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신

SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.

#sglang #Shared Memory #Broadcast #IPC #Low Latency

2026년 4월 13일

[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신

SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.

#sglang #Custom AllReduce #Low Latency #Shared Memory

2026년 4월 13일

[triton] AMD GPU Descriptor Encoding 최적화 패스 추가

AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.

#Triton #AMD GPU #Tensor Descriptor #Shared Memory #Optimization

2026년 3월 30일

[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrap

SGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.

#SGLang #VLM #Shared Memory #Multimodal #Optimization #IPC

2026년 3월 27일

[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.

#Review #Egocentric Vision #Multi-Agent Systems #Video Question Answering #Long-Horizon Reasoning #Embodied AI #Benchmark Dataset #Shared Memory #Dynamic Retrieval

2026년 3월 11일

[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현

텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.

#Triton #AMD #LLVM #Shared Memory #Partitioning #MLIR

2026년 2월 10일

[triton] Membar 분석 함수 호출 시 smem offset 수정

Triton의 membar 분석에서 callee 함수의 shared memory 접근을 caller 컨텍스트로 변환할 때, allocation offset을 올바르게 반영하도록 수정한 PR을 분석합니다.

#Triton #Memory Barrier #Shared Memory #Function Call #Bug Fix

2026년 2월 9일

[triton] 클러스터 환경을 위한 Membar 패스 확장

Triton의 membar 분석을 클러스터 환경에 맞게 확장하여, AllocationSlice에 buffer ID를 추가하고 slice/op 레벨의 세분화된 filter를 지원하는 PR을 분석합니다.

#Triton #Memory Barrier #Cluster #Shared Memory #Static Analysis

2026년 2월 9일

[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가

#Triton #AMD #MLIR #Shared Memory #Memory Optimization

2026년 2월 4일

[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소

텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소

#Triton #AMD #MLIR #Shared Memory #Architecture

2026년 2월 2일

[triton] AMD membarFilter에 bufferID 고려 추가

AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.

#Triton #AMD GPU #Memory Barrier #Shared Memory #Optimization

2026년 1월 22일

[triton] AMD: padded shared layout을 더 작은 block size에도 적용하여 bank conflict 제거

16KB 미만의 작은 블록에서도 LDS padding을 활용한 bank conflict 프리 레이아웃을 지원하도록 개선한 변경 분석.

#Triton #AMD #GPU #LDS #Bank Conflict #Shared Memory

2026년 1월 13일

[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지

bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다

#Triton #MXFP #Shared Memory #Matrix Multiplication #Performance Tuning

2025년 12월 9일

[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기

AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링

#Triton #AMD #GPU #Shared Memory

2025년 10월 23일

[Triton] ds_read_tr + padded layout에서 vec size를 min interval로 제한

padded shared memory 레이아웃에서 ds_read_tr의 벡터 크기가 padding 간격을 초과하지 않도록 수정

#Triton #AMD #Shared Memory #Padding #Bug Fix

2025년 10월 6일