#Optimization

89개의 포스트

[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결

가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.

#SGLang #PyTorch #CUDA #Optimization #LLM

2026년 4월 25일

[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상

AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.

#AMD GPU #FP8 #Triton Kernel #KV Cache #Optimization #SGLang

2026년 4월 25일

[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입

기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.

#FlashInfer #LLM #Autotuning #Optimization #MoE

2026년 4월 24일

[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.

#vLLM #Quantization #Humming #LLM #Inference #Optimization

2026년 4월 24일

[cpython] Python statistics.fmean() 성능 최적화: itertools.compress를 활용한 오버헤드 제거

itertools.compress를 활용하여 튜플 생성 오버헤드를 제거하고 fmean의 성능을 약 39% 향상시킨 사례를 분석합니다.

#Python #Performance #Optimization #CPython #itertools

2026년 4월 23일

[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석

Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.

#Triton #GPU #Optimization #Attention #DeepLearning

2026년 4월 23일

[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입

vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.

#vLLM #CPU #Optimization #NEON #Performance

2026년 4월 23일

[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원

Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.

#Triton #CUDA #LLM #SGLang #Optimization #DeepLearning

2026년 4월 22일

[논문리뷰] Evaluation-driven Scaling for Scientific Discovery

Caiyin Yang이 arXiv에 게시한 'Evaluation-driven Scaling for Scientific Discovery' 논문에 대한 자세한 리뷰입니다.

#Review #Test-Time Scaling #Scientific Discovery #Evaluation-driven Discovery #LLM #Optimization #Symbolic Laws #GPU Kernel

2026년 4월 21일

[abtop] Codex 세션 파일 검색 성능 개선: lsof 대신 /proc/pid/fd 활용

Codex 세션에서 열린 JSONL 파일을 찾는 방식을 lsof에서 /proc/pid/fd로 변경하여 Linux 환경에서 성능을 크게 향상시켰습니다.

#Rust #Performance #Linux #Optimization #System Programming

2026년 4월 21일

[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법

백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.

#vLLM #Performance #Optimization #Python #Multiprocessing

2026년 4월 21일

[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기

불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.

#vLLM #CI/CD #Optimization #MoE #Python

2026년 4월 18일

[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상

Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.

#Triton #AMD #GPU #Optimization #GEMM #HPC

2026년 4월 18일

[open-webui] Open WebUI 성능 최적화: 불필요한 DB 중복 조회 제거하기

인증 과정에서 이미 로드된 사용자 정보를 재조회하던 비효율적인 DB 호출을 제거하여 API 응답 속도를 개선했습니다.

#Python #FastAPI #Performance #Optimization #OpenWebUI

2026년 4월 17일

[open-webui] Open WebUI 채팅 파일 중복 제거 로직 최적화: O(n*m)에서 O(n+m)으로

Open WebUI의 채팅 파일 중복 제거 로직을 리스트에서 세트로 변경하여 성능을 크게 개선했습니다.

#Python #Optimization #Performance #Backend #Open WebUI

2026년 4월 17일

[cpython] CPython의 BINARY_OP_EXTEND 최적화: 타입 정보 전파를 통한 성능 개선

BINARY_OP_EXTEND에 리스트와 튜플 연산을 추가하고, 타입 정보를 JIT에 전달하여 가드(guard)를 제거함으로써 성능을 최적화했습니다.

#CPython #Python Internals #Performance #JIT #Optimization

2026년 4월 16일

[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선

SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.

#SGLang #Diffusion Models #RL #Optimization #Performance #API

2026년 4월 15일

[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화

vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.

#vLLM #LLM #KV Cache #Quantization #Optimization #Triton #GPU Memory

2026년 4월 15일

[cpython] CPython JIT 최적화: 키워드 및 바운드 메서드 호출 성능 개선

CPython JIT 컴파일러가 키워드 인수와 바운드 메서드 호출을 더 효율적으로 처리하도록 최적화하는 방법을 설명합니다.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 13일

[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화

Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.

#AI #Machine Learning #LLM #Whisper #Optimization #Performance #Inference

2026년 4월 12일

[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선

AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.

#SGLang #AMD #ROCm #AllReduce #Optimization #LLM

2026년 4월 12일

[cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상

CPython JIT 컴파일러에서 불필요한 스택 조작을 제거하여 성능을 개선하는 코드 변경 분석.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 11일

[cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선

CALL_BUILTIN_FAST_WITH_KEYWORDS 옵코드가 인자를 스택에 남기도록 변경되어 에러 발생 시의 스택 복구 효율성이 향상되었습니다.

#CPython #Python3.14 #Optimization #Bytecode #VirtualMachine

2026년 4월 11일

[cpython] CPython JIT 최적화: 복합 마이크로 오퍼레이션(uOp)의 분해를 통한 효율성 개선

CPython JIT의 복합 uOp를 단순한 단위 작업으로 분해하여 코드 생성의 유연성과 유지보수성을 높인 최적화 사례를 분석합니다.

#CPython #JIT #Python Internals #Optimization

2026년 4월 10일

[cpython] CPython JIT 최적화: MAKE_FUNCTION의 불필요한 참조 카운팅 제거

CPython JIT 컴파일러에서 MAKE_FUNCTION 바이트코드의 불필요한 참조 카운팅을 제거하여 성능을 개선합니다.

#CPython #JIT #Optimization #Python Internals #Performance

2026년 4월 9일

[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선

SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.

#SGLang #NIXL #KV Cache #Disaggregation #TP Heterogeneous #Optimization

2026년 4월 7일

[cpython] CPython 최적화: _BINARY_OP_EXTEND를 통한 타입 정보 전파로 성능 향상

CPython의 Tier 2 옵티마이저에서 _BINARY_OP_EXTEND의 타입 정보 전파를 개선하여 성능을 35% 향상시켰습니다.

#Python #CPython #Optimization #JIT #Compiler

2026년 4월 6일

[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현

DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.

#SGLang #DeepSeek #LLM #Optimization #Inference

2026년 4월 5일

[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입

SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.

#VLM #Optimization #SGLang #Multimodal #Caching #Performance

2026년 4월 4일

[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합

FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention4 #SpeculativeDecoding #LLM #Optimization

2026년 4월 4일

[ollama] Ollama의 Gemma 4 모델 Flash Attention 비활성화: 성능 회귀(Regression) 해결 사례

Gemma 4 모델에서 Flash Attention 적용 후 발생한 40% 이상의 성능 저하 문제를 Revert를 통해 해결한 사례를 분석합니다.

#Ollama #FlashAttention #Performance #Gemma4 #Optimization

2026년 4월 4일

[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화

vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.

#vLLM #CUDA #Performance #KV-Cache #Optimization

2026년 4월 3일

[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선

Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.

#vLLM #Mamba #Optimization #DeepLearning #Performance

2026년 4월 3일

[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합

Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.

#SGLang #Triton #CUDA #LLM #Optimization

2026년 4월 2일

[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선

Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.

#Vitest #CI #Performance #Optimization #Testing

2026년 4월 1일

[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions

Wangmeng Zuo이 arXiv에 게시한 'ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions' 논문에 대한 자세한 리뷰입니다.

#Review #4D Reconstruction #Hand-Object Interaction #Foundation Models #Articulated Objects #Monocular Video #Optimization

2026년 3월 31일

[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기

Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.

#Feast #Python #Performance #Optimization #Data Engineering

2026년 3월 31일

[triton] AMD GPU Descriptor Encoding 최적화 패스 추가

AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.

#Triton #AMD GPU #Tensor Descriptor #Shared Memory #Optimization

2026년 3월 30일

[CPython] dict 접근 최적화: known hash를 활용한 중복 해시 계산 제거

CPython의 dict 자료구조에서 이미 알고 있는 hash 값을 활용하여 중복 해시 연산을 제거하는 JIT/인터프리터 최적화 분석.

#CPython #Performance #Dict #JIT #Optimization #C

2026년 3월 30일

[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrap

SGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.

#SGLang #VLM #Shared Memory #Multimodal #Optimization #IPC

2026년 3월 27일

[triton] GSan AxisInfo 기반 Shadow Update 중복 제거로 2~10배 성능 향상

Triton의 Global Sanitizer에서 AxisInfo의 contiguity 속성을 활용하여 중복 shadow update를 제거하고, FP16 matmul에서 최대 10배 속도 향상을 달성한 PR을 분석합니다.

#Triton #GPU #Sanitizer #Optimization #MLIR

2026년 3월 27일

[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입

FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.

#SGLang #FlashAttention #CUDA #Optimization #LLM

2026년 3월 25일

[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상

Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.

#Triton #AMD #GPU #Optimization #GEMM

2026년 3월 25일

[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩

LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.

#Triton #AMD #WMMA #Gluon #Optimization

2026년 3월 25일

[cpython] CPython JIT 최적화: Float 연산의 In-place 변환을 통한 성능 향상

CPython JIT의 Tier 2 옵티마이저에서 고유 참조된 Float 피연산자를 In-place로 변환하여 메모리 할당을 줄이고 성능을 개선하는 방법.

#CPython #JIT #Optimization #Python Internals #Performance

2026년 3월 24일

[CPython] JIT float 연산 최적화 — 유일 참조 피연산자 재사용

CPython JIT에서 유일 참조 float 객체를 in-place 변경하여 메모리 할당을 제거한다

#CPython #JIT #Optimization #Float

2026년 3월 24일

[triton] getTranspositionSelectors 알고리즘 단순화 및 복원

다중 mixed transposition에서의 정합성 문제를 해결하고, prmt selector 알고리즘의 수학적 분해를 명확히 정리한 사례를 분석합니다.

#Triton #GPU #LinearLayout #Optimization #Algorithm

2026년 3월 19일

[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화

Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.

#Triton #PyTorch #Optimization #Deep Learning #Performance #GPU

2026년 3월 19일

[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기

nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.

#LLM #vLLM #Inference #Optimization #Python #PyTorch

2026년 3월 18일

[논문리뷰] Progressive Residual Warmup for Language Model Pretraining

Yang Wang이 arXiv에 게시한 'Progressive Residual Warmup for Language Model Pretraining' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models (LLMs)#Transformer #Pretraining Stability #Residual Connections #Warmup Schedule #Layer-wise Learning #Optimization

2026년 3월 8일

[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지

CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.

#Triton #Gluon #GPU #MultiCTA #Optimization

2026년 3월 5일

[Open WebUI] StatusHistory 비교에 O(1) 길이 검사 추가로 직렬화 비용 절감

Open WebUI의 스트리밍 응답에서 매 프레임마다 JSON.stringify로 상태 히스토리를 비교하던 것에 배열 길이 사전 검사를 추가하여 불필요한 직렬화를 건너뛰는 최적화를 분석합니다.

#Open WebUI #Svelte #Performance #Optimization #Streaming

2026년 3월 1일

[feast] Feast 성능 최적화: 엔티티 키 직렬화 Hot Path 2.4배 개선하기

Feast의 온라인 스토어 성능을 좌우하는 엔티티 키 직렬화 로직을 Fast Path 도입과 memoryview 활용으로 최대 141% 개선한 사례를 분석합니다.

#Python #Performance #Feast #Optimization #Zero-copy

2026년 2월 19일

[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상

Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.

#Ray #RLlib #Python #Performance #Reinforcement Learning #Optimization

2026년 2월 19일

[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로

Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.

#Ray #Ray Serve #Performance #Scheduling #Python #Optimization

2026년 2월 13일

[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석

AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.

#Triton #AMD #GPU #Attention #Optimization

2026년 2월 10일

[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선

WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.

#Triton #NVIDIA #GPU #Optimization #Compiler

2026년 2월 9일

[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입

Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.

#Triton #Compiler #Optimization #LLVM #GPU

2026년 2월 6일

[triton] ConSan 컴파일 타임 19분에서 34초로 단축 - 대규모 최적화

Triton Concurrency Sanitizer의 컴파일 시간을 33배 개선한 대규모 PR을 분석합니다. IR 크기 축소, warp-local layout, 헬퍼 함수 중복제거 등 다양한 최적화가 포함됩니다.

#Triton #ConSan #Compile Time #MLIR #Optimization

2026년 2월 5일

[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화

AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법

#Triton #AMD #GPU #LLVM #Optimization

2026년 1월 30일

[uvloop] uvloop의 SSL 성능 최적화: SSLWantReadError 비용 줄이기

SSLWantReadError 예외 발생을 최소화하여 SSL 읽기 성능을 개선한 uvloop의 최적화 사례를 분석합니다.

#uvloop #Python #SSL #Performance #Optimization

2026년 1월 30일

[uvloop] uvloop의 SSL 성능 최적화: Python Vectorcall 우회하기

Python의 vectorcall 인터페이스 대신 C 레벨의 직접 호출과 인라인화를 통해 SSLProtocol 성능을 개선한 사례 분석.

#Python #uvloop #Performance #Optimization #SSL

2026년 1월 30일

[Loki] 인덱스 빌더 크기 추정 최적화: 반복 계산 제거로 97% 성능 개선

Grafana Loki의 데이터 객체 인덱스 빌더에서 매번 모든 테넌트를 순회하며 크기를 계산하던 방식을 증분 추적으로 변경하여 97%의 성능 향상을 달성한 PR을 분석합니다.

#Grafana Loki #Performance #Go #Index Builder #Optimization

2026년 1월 28일

[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상

Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.

#Triton #NVIDIA #Membar #Optimization #MoE

2026년 1월 22일

[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기

Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.

#Triton #GPU #Optimization #HPC #Matmul

2026년 1월 22일

[triton] AMD membarFilter에 bufferID 고려 추가

AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.

#Triton #AMD GPU #Memory Barrier #Shared Memory #Optimization

2026년 1월 22일

[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선

Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.

#Triton #Compiler #Optimization #LLVM #Performance

2026년 1월 20일

[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상

Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.

#Triton #GPU #CUDA #Optimization #Matmul

2026년 1월 20일

[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석

Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.

#Triton #Blackwell #NVIDIA #GPU #Optimization #MLIR

2026년 1월 16일

[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

arXiv에 게시된 'Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers' 논문에 대한 자세한 리뷰입니다.

#Review #Large Language Models #Weight Decay #Learnable Multipliers #Scale Adaptation #Optimization #µP Parametrization #Adam #Muon

2026년 1월 8일

[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선

Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.

#Triton #Kernel #SwiGLU #PTX #Optimization

2026년 1월 8일

[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상

AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 19일

[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선

Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.

#Triton #PROTON #CUDA #Profiling #Optimization #MsgPack #C++#Python

2025년 12월 19일

[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석

Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.

#Triton #AMD #GEMM #GPU #Optimization

2025년 12월 18일

[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성

파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.

#Triton #NVIDIA #WGMMA #Pipeline #Optimization

2025년 12월 17일

[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상

Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.

#Triton #AMD #GPU #Optimization #FlashAttention

2025년 12월 15일

[논문리뷰] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

Tianyu Huang이 arXiv에 게시한 'TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels' 논문에 대한 자세한 리뷰입니다.

#Review #Monocular 3D Tracking #World-centric Coordinates #Dense Tracking #Camera Pose Estimation #Dynamic Object Tracking #Optimization #2D Track Upsampling

2025년 12월 9일

[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화

Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.

#Triton #GPU #Optimization #MXFP8 #MatMul

2025년 12월 8일

[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화

Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.

#Triton #Blackwell #GPU #Optimization #MXFP8

2025년 12월 2일

[ultralytics] Ultralytics 8.3.229: COCO Segmentation 평가 300% 가속화 분석

외부 라이브러리 의존성을 제거하고 PyTorch 기반의 최적화된 RLE 인코딩 및 마스크 스케일링을 도입하여 성능을 3배 향상시킨 사례를 분석합니다.

#Ultralytics #YOLO #Optimization #PyTorch #ComputerVision

2025년 11월 18일

[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training

suayptalha이 arXiv에 게시한 'Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training' 논문에 대한 자세한 리뷰입니다.

#Review #Quantum Computing #Optimization #Machine Learning #Transformers #Gradient Descent #Superposition #Large Language Models #Hybrid Quantum-Classical

2025년 11월 13일

[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선

Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.

#Triton #GPU #Optimization #Compiler #Profiling

2025년 11월 7일

[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용

Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.

#Triton #MXFP #GPU #Optimization #HPC

2025년 11월 6일

[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석

Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.

#Triton #NVIDIA #FP4 #GPU #Optimization #LLM

2025년 10월 20일

[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석

YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.

#YOLO #PyTorch #Optimization #ComputerVision #Performance

2025년 10월 16일

[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원

AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.

#Triton #AMD #LDS #LinearLayout #SharedMemory #Optimization

2025년 10월 16일

[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법

Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.

#Triton #Compiler #Optimization #MLIR #GPU

2025년 10월 3일

[논문리뷰] TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training

Jiyao Deng이 arXiv에 게시한 'TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training' 논문에 대한 자세한 리뷰입니다.

#Review #Language Model Pre-training #Dynamic Data Mixing #Data Influence #Group Influence #Optimization #Regression Model #LLM Training

2025년 9월 1일

[논문리뷰] Efficient Agents: Building Effective Agents While Reducing Cost

Yue Hou이 arXiv에 게시한 'Efficient Agents: Building Effective Agents While Reducing Cost' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Agents #Cost Efficiency #Performance-Cost Trade-off #Agent Frameworks #GAIA Benchmark #Optimization #Resource Management

2025년 8월 7일