[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.#sglang#Shared Memory#Broadcast#IPC#Low Latency2026년 4월 13일댓글 수 로딩 중
[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중
[triton] AMD GPU Descriptor Encoding 최적화 패스 추가AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.#Triton#AMD GPU#Tensor Descriptor#Shared Memory#Optimization2026년 3월 30일댓글 수 로딩 중
[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrapSGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.#SGLang#VLM#Shared Memory#Multimodal#Optimization#IPC2026년 3월 27일댓글 수 로딩 중
[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.#Review#Egocentric Vision#Multi-Agent Systems#Video Question Answering#Long-Horizon Reasoning#Embodied AI#Benchmark Dataset#Shared Memory#Dynamic Retrieval2026년 3월 11일댓글 수 로딩 중
[triton] AMD: PartitionedSharedEncodingAttr의 LLVM lowering 지원으로 공유 메모리 파티셔닝 구현텐서를 여러 물리적 공유 메모리 파티션에 분할 저장하여 파티션 충돌을 줄이는 PartitionedSharedEncodingAttr의 LLVM IR 변환 구현 분석.#Triton#AMD#LLVM#Shared Memory#Partitioning#MLIR2026년 2월 10일댓글 수 로딩 중
[triton] Membar 분석 함수 호출 시 smem offset 수정Triton의 membar 분석에서 callee 함수의 shared memory 접근을 caller 컨텍스트로 변환할 때, allocation offset을 올바르게 반영하도록 수정한 PR을 분석합니다.#Triton#Memory Barrier#Shared Memory#Function Call#Bug Fix2026년 2월 9일댓글 수 로딩 중
[triton] 클러스터 환경을 위한 Membar 패스 확장Triton의 membar 분석을 클러스터 환경에 맞게 확장하여, AllocationSlice에 buffer ID를 추가하고 slice/op 레벨의 세분화된 filter를 지원하는 PR을 분석합니다.#Triton#Memory Barrier#Cluster#Shared Memory#Static Analysis2026년 2월 9일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가#Triton#AMD#MLIR#Shared Memory#Memory Optimization2026년 2월 4일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입 — shared memory 파티션 충돌 감소텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict 감소#Triton#AMD#MLIR#Shared Memory#Architecture2026년 2월 2일댓글 수 로딩 중
[triton] AMD membarFilter에 bufferID 고려 추가AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.#Triton#AMD GPU#Memory Barrier#Shared Memory#Optimization2026년 1월 22일댓글 수 로딩 중
[triton] AMD: padded shared layout을 더 작은 block size에도 적용하여 bank conflict 제거16KB 미만의 작은 블록에서도 LDS padding을 활용한 bank conflict 프리 레이아웃을 지원하도록 개선한 변경 분석.#Triton#AMD#GPU#LDS#Bank Conflict#Shared Memory2026년 1월 13일댓글 수 로딩 중
[Triton] bf16/fp16 x mxfp 조합의 num_stages 조정 — shared memory 초과 방지bf16/fp16과 mxfp 혼합 행렬 곱셈에서 weight 업캐스트로 인한 shared memory 초과 문제를 num_stages 조정으로 해결한다#Triton#MXFP#Shared Memory#Matrix Multiplication#Performance Tuning2025년 12월 9일댓글 수 로딩 중
[Triton] gfx1250 Shared Memory 크기 정확하게 반환하기AMD gfx1250 타겟에서 TargetInfo가 올바른 shared memory 크기를 반환하도록 switch 문으로 리팩터링#Triton#AMD#GPU#Shared Memory2025년 10월 23일댓글 수 로딩 중
[Triton] ds_read_tr + padded layout에서 vec size를 min interval로 제한padded shared memory 레이아웃에서 ds_read_tr의 벡터 크기가 padding 간격을 초과하지 않도록 수정#Triton#AMD#Shared Memory#Padding#Bug Fix2025년 10월 6일댓글 수 로딩 중