[vllm] vLLM에서 Lfm2VL 모델을 위한 Encoder CUDA Graph 최적화 적용Lfm2VL 모델에 Encoder CUDA Graph를 도입하여 낮은 배치 사이즈에서 추론 지연 시간을 10-20% 개선했습니다.#vLLM#CUDA Graph#LLM#Optimization#Performance2026년 6월 12일댓글 수 로딩 중
[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.#SGLang#Diffusion#FP8#GEMM#Optimization#CUDA2026년 6월 11일댓글 수 로딩 중
[sglang] SGLang에서 DP Attention, TBO, Shared Experts Fusion 동시 최적화 구현DP Attention, TBO, Shared Experts Fusion을 통합하여 DeepSeek 모델의 추론 성능을 약 2.5% 향상시킨 기술적 해결 과정.#SGLang#DeepSeek#LLM#Optimization#DistributedInference2026년 6월 10일댓글 수 로딩 중
[sglang] SGLang LTX-2 VAE 디코딩 성능 최적화: channels_last_3d 도입으로 4.5배 속도 향상LTX-2 VAE 디코딩 과정에서 channels_last_3d 메모리 레이아웃을 적용하여 Conv3d 연산 속도를 4.5배 높이고 메모리 사용량을 13.5% 절감했습니다.#SGLang#DeepLearning#Optimization#VAE#CUDA2026년 6월 9일댓글 수 로딩 중
[transformers] Hugging Face Transformers: 멀티프로세싱 풀 재사용을 통한 모듈식 변환 성능 최적화멀티프로세싱 풀을 매번 생성하지 않고 재사용함으로써 모듈식 변환 속도를 약 50% 향상시킨 사례를 분석합니다.#Python#Performance#Multiprocessing#HuggingFace#Optimization2026년 6월 9일댓글 수 로딩 중
[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석#HuggingFace#Transformers#KernelFusion#PyTorch#Optimization2026년 6월 9일댓글 수 로딩 중
[sglang] SGLang의 Spectral Progressive Diffusion 도입: 추론 속도 최대 2.78배 향상Transformer의 O(n²) 연산 비용을 혁신적으로 줄이는 Spectral Progressive Diffusion 기술 분석#SGLang#Diffusion#Optimization#Transformer#GPU2026년 6월 8일댓글 수 로딩 중
[triton] [AMD Triton] LLVM InstCombine의 함정을 피하는 법: TDM 텐서 클램핑 최적화LLVM의 InstCombine이 유발하는 불필요한 VALU 연산과 v_readfirstlane 오버헤드를 방지하기 위한 TDM 디스크립터 생성 로직 개선 사례를 살펴봅니다.#Triton#AMD#LLVM#GPU#Optimization#Codegen2026년 6월 8일댓글 수 로딩 중
[cpython] Python re 모듈의 findall, sub, subn 성능 개선: PyList_AppendTakeRef 도입Python re 모듈의 findall, sub, subn 함수에서 리스트 생성 시 불필요한 참조 카운트 연산을 제거하여 성능을 개선했습니다.#Python#CPython#Performance#Regex#Optimization2026년 6월 7일댓글 수 로딩 중
[cpython] CPython 내부 최적화: Reference Stealing을 통한 Frame Locals 수집 속도 향상CPython의 frame.f_locals.items() 성능을 4% 향상시킨 Reference Stealing 기법과 내부 API 최적화 분석#Python#CPython#Optimization#C-API#ReferenceCounting2026년 6월 7일댓글 수 로딩 중
[sglang] SGLang의 Ideogram4 추론 성능 최적화: Denoising 루프 내 오버헤드 제거Ideogram4 모델의 Denoising 루프에서 반복적으로 수행되던 마스크 메타데이터 생성 및 스케줄 계산을 사전 연산으로 최적화하여 성능을 개선했습니다.#SGLang#Diffusion#Optimization#Performance#Ideogram42026년 6월 7일댓글 수 로딩 중
[vllm] vLLM의 GDN 어텐션 최적화: Prefill과 Decode 배치 분리를 통한 2배 성능 향상Mixed 배치에서 Prefill과 Decode를 분리하여 GDN 어텐션 연산 효율을 극대화하고 1.93배의 커널 속도 향상을 달성했습니다.#vLLM#LLM#Performance#Optimization#CUDA#GDN2026년 6월 6일댓글 수 로딩 중
[sglang] UniPC 스케줄러에서 GPU 동기화 제거를 통한 성능 최적화 분석UniPC 스케줄러의 GPU 동기화 오버헤드를 제거하여 성능을 개선한 코드 변경 분석.#PyTorch#Optimization#GPU#UniPC Scheduler#sglang2026년 6월 6일댓글 수 로딩 중
[hermes-agent] CLI 사용자 경험 개선: 백그라운드 캐시 워밍을 통한 모델 선택기 응답 속도 최적화사용자 입력 전 백그라운드에서 모델 캐시를 미리 로드하여 /model 명령어 응답 시간을 1.5초에서 136ms로 단축했습니다.#Python#Performance#CLI#Optimization#Async2026년 6월 5일댓글 수 로딩 중
[sglang] [SGLang] LingBot 실시간 서빙 최적화: 카메라 컨디셔닝 캐싱과 전송 프로토콜 개선LingBot의 실시간 지연시간을 10% 이상 단축시킨 카메라 컨디셔닝 캐싱 및 전송 레이어 최적화 기법을 살펴봅니다.#SGLang#Diffusion#Optimization#Realtime#PyTorch#Performance2026년 6월 5일댓글 수 로딩 중
[cpython] CPython 내부 들여다보기: logging.getLogger()는 어떻게 33% 더 빨라졌나?CPython의 logging 모듈이 락 프리(lock-free) 패스트 패스를 도입하여 기존 로거 조회 성능을 33% 개선한 과정을 분석합니다.#Python#CPython#Performance#Optimization#Logging2026년 6월 4일댓글 수 로딩 중
[flashinfer] FlashInfer의 MoE Routing 성능 최적화: Batcher's Odd-Even Merge Sort 도입FlashInfer의 MoE Top-K 연산에서 64비트 리덕션 최적화 및 비-2의 거듭제곱 정렬을 Batcher's 네트워크로 개선하여 성능을 극대화했습니다.#FlashInfer#CUDA#MoE#Optimization#GPU#Sorting2026년 6월 4일댓글 수 로딩 중
[ray] Ray Data의 hash_partition 성능을 7배 향상시킨 최적화 전략PyArrow의 sort_indices와 zero-copy 슬라이싱을 활용하여 Ray Data의 hash_partition 성능을 대폭 개선한 사례를 분석합니다.#Ray#PyArrow#Performance#DataEngineering#Optimization2026년 6월 4일댓글 수 로딩 중
[vllm] [ROCm CI 최적화] Docker 3단계 빌드 전략으로 빌드 시간 26분 단축하기vLLM 프로젝트의 ROCm CI 빌드 시간을 획기적으로 단축하기 위해 도입된 3단계 Docker 빌드 아키텍처와 Content-addressed 캐싱 기법을 심층 분석합니다.#vLLM#ROCm#Docker#CI/CD#Buildkite#Optimization2026년 6월 3일댓글 수 로딩 중
[transformers] Hugging Face Transformers: Slow Tokenizer 성능 회귀 문제 해결하기PreTrainedTokenizer의 O(T*N*logN) 성능 저하 문제를 O(T)로 복구한 최적화 사례 분석#HuggingFace#Transformers#Python#Optimization#Tokenizer2026년 6월 3일댓글 수 로딩 중
[transformers] Hugging Face Transformers: SequenceFeatureExtractor.pad() 최적화로 불필요한 NumPy 배열 재변환 제거Hugging Face Transformers의 SequenceFeatureExtractor.pad() 메서드에서 NumPy 배열의 불필요한 재변환을 제거하여 성능을 개선했습니다.#Python#NumPy#Performance#Hugging Face Transformers#Optimization2026년 6월 2일댓글 수 로딩 중
[flashinfer] FlashInfer FP8 KV-Cache Prefill 성능 최적화: Repacking 기법을 통한 오버헤드 제거FP8 KV-cache의 dequantization 오버헤드를 BF16 staging buffer로 제거하여 Prefill 성능을 최대 1.3배 향상시켰습니다.#FlashInfer#CUDA#FP8#LLM#Optimization2026년 6월 2일댓글 수 로딩 중
[sglang] SGLang의 NIXL 통신 최적화: Prep+Make API 도입을 통한 KV 캐시 전송 성능 향상NIXL의 Prep+Make API를 활용해 KV 캐시 전송 시 디스크립터 재구성을 방지하여 TTFT를 최대 27% 개선했습니다.#SGLang#LLM#KV-Cache#Optimization#Distributed-Systems2026년 6월 2일댓글 수 로딩 중
[vllm] vLLM의 FP8 Scaled MM 최적화: Padding 제거를 통한 20% 성능 향상vLLM에서 FP8 행렬 곱셈 시 불필요한 Padding을 제거하여 커널 성능을 약 20% 개선한 사례를 분석합니다.#vLLM#CUDA#Optimization#FP8#DeepLearning2026년 6월 1일댓글 수 로딩 중
[uv] uv의 로컬 휠(Wheel) 압축 해제 성능 회귀 문제 해결: astral_async_zip 버전 업데이트astral_async_zip 라이브러리의 버전을 rc4에서 정식 버전으로 업데이트하여 로컬 휠 압축 해제 성능 저하를 해결한 사례를 분석합니다.#Rust#uv#Performance#Optimization#Packaging2026년 6월 1일댓글 수 로딩 중
[cpython] tarfile 스트리밍 모드(r|*) 성능 개선: 파이썬 압축 파일 처리의 숨겨진 병목 제거tarfile 모듈의 r|* 모드에서 발생하던 비효율적인 버퍼링 문제를 해결하여 압축 파일 읽기 성능을 획기적으로 개선한 PR 분석.#Python#tarfile#Performance#Optimization#CPython#Compression#Streaming2026년 5월 30일댓글 수 로딩 중
[sglang] SGLang 스케줄러 최적화: input_ids H2D 지연 처리 및 FutureMap 통합SGLang의 prefill input_ids H2D를 forward stream으로 지연시키고 FutureMap을 통해 입력을 통합하여 스케줄링 효율을 개선했습니다.#SGLang#LLM#Scheduler#Optimization#CUDA2026년 5월 30일댓글 수 로딩 중
[vllm] [vLLM] MiniMax-M2 MoE Gate 최적화: Fused FP32 Kernel로 서빙 성능 32% 향상시키기vLLM에서 MiniMax-M2 모델의 MoE Gate 연산을 Fused Kernel로 최적화하여 저지연 환경의 성능을 대폭 개선한 사례를 분석합니다.#vLLM#CUDA#MoE#Optimization#MiniMax-M2#LLM Serving2026년 5월 30일댓글 수 로딩 중
[sglang] sglang ROCm MXFP4 어텐션에서 불필요한 contiguous copy 제거를 통한 성능 최적화ROCm 환경의 MXFP4 디코딩 경로에서 발생하는 불필요한 메모리 복사를 제거하여 성능을 개선한 PR 분석입니다.#sglang#ROCm#MXFP4#Attention#Optimization#Performance#Deepseek2026년 5월 29일댓글 수 로딩 중
[flashinfer] FlashInfer MLA 커널 최적화: num_heads < 128 환경에서의 성능 극대화Blackwell GPU에서 MLA 디코드 커널의 num_heads < 128 성능을 개선하기 위해 seqlen_q를 헤드 차원으로 폴딩하는 최적화 기법을 소개합니다.#FlashInfer#GPU#MLA#Optimization#Blackwell#CUDA2026년 5월 29일댓글 수 로딩 중
[feast] Feast Feature Server의 직렬화 성능 4배 향상: MessageToDict 최적화Feast의 Feature Server에서 Protobuf 직렬화 병목을 해결하기 위해 커스텀 dict 빌더를 도입하여 성능을 4배 개선한 사례를 분석합니다.#Feast#Python#Protobuf#Performance#Optimization2026년 5월 28일댓글 수 로딩 중
[triton] [Triton] Persistent Matmul 성능을 13% 향상시킨 정교한 Shared Memory 계산 기법 분석Shared Memory 계산 휴리스틱을 개선하여 TF32 Matmul에서 4-stage 파이프라이닝을 활성화하고 GB200 성능을 13% 끌어올린 사례를 분석합니다.#Triton#GPU#CUDA#Matmul#Optimization#Deep Learning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration본 논문은 LLM post-training 과정에서 MTP와 RL objectives를 공동으로 학습할 때 발생하는 심각한 성능 저하 문제를 해결하고자 한다.#Review#Multi-Token Prediction#Reinforcement Learning#Optimization#Optimal Coefficient Calibration#Large Language Models#Mathematical Reasoning2026년 5월 27일댓글 수 로딩 중
[cpython] Python의 os.fork 후 발생하던 성능 프로파일링 충돌 문제 해결 및 최적화 분석os.fork 후 발생하던 CPython의 성능 프로파일링 충돌 문제를 해결하고, 코드 재사용성을 높인 최적화 분석.#Python#CPython#Performance#Optimization#fork#Profiling2026년 5월 25일댓글 수 로딩 중
[sglang] SGLang Diffusion 최적화: CFG Gating을 통한 추론 속도 20% 향상Classifier-free guidance(CFG)의 불필요한 연산을 줄이는 CFG Gating 기법을 도입하여 Denoising 단계의 성능을 25% 개선했습니다.#SGLang#Diffusion#Optimization#LLM#Inference2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Rethinking Muon Beyond Pretraining: Spectral Failures and High-Pass Remedies for VLA and RLVR본 논문은 Muon 옵티마이저가 사전 학습(Pretraining) 단계를 넘어선 하류 태스크(Downstream tasks), 특히 VLA 및 RLVR 환경에서 성능 저하를 보이는 근본적인 이유를 규명합니다.#Review#Muon#Pretraining#Spectral Analysis#VLA#RLVR#Optimization#Deep Learning2026년 5월 24일댓글 수 로딩 중
[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.#SGLang#VLM#CUDA#Optimization#Performance2026년 5월 24일댓글 수 로딩 중
[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.#vLLM#ROCm#DeepSeekV4#MTP#SpeculativeDecoding#Triton#FP8#Optimization2026년 5월 24일댓글 수 로딩 중
[cpython] CPython의 PySequence_GetSlice 성능 개선: 불필요한 참조 카운트 연산 제거CPython의 PySequence_GetSlice 함수에서 불필요한 참조 카운트 증가/감소 연산을 제거하여 성능을 개선했습니다.#Python#CPython#Performance#Optimization#C API2026년 5월 23일댓글 수 로딩 중
[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.#vLLM#XPU#MOE#Performance#Optimization2026년 5월 23일댓글 수 로딩 중
[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.#RISC-V#RVV#ONNX Runtime#LLM#Optimization2026년 5월 23일댓글 수 로딩 중
[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.#vLLM#CUTLASS#NVFP4#CUDA#Optimization#Blackwell2026년 5월 23일댓글 수 로딩 중
[ultralytics] Ultralytics 코드베이스 경량화: SciPy 의존성 감소 및 NumPy 기반 최적화SciPy 의존성을 줄이고 NumPy를 활용하여 Ultralytics 코드의 성능과 이식성을 개선한 PR 분석#Python#NumPy#SciPy#Optimization#Ultralytics#Machine Learning2026년 5월 22일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.#ONNXRuntime#C++#Optimization#MultiThreading#Performance2026년 5월 22일댓글 수 로딩 중
[cpython] Python JIT 최적화: 트레이스 버퍼 오버헤드 관리 개선Python JIT 컴파일러의 트레이스 버퍼 관리 방식을 개선하여 안정성을 높이고 성능을 소폭 향상시킨 PR을 분석합니다.#Python#JIT#Optimization#CPython#Performance2026년 5월 21일댓글 수 로딩 중
[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.#FlashInfer#DeepSeek#CUDA#LLM#Optimization2026년 5월 21일댓글 수 로딩 중
[LlamaFactory] LlamaFactory의 Triton 기반 Fused MoE 커널 도입: 40% 이상의 성능 향상Triton으로 구현된 Fused MoE 커널을 통해 Mixtral 등 MoE 모델의 학습 속도를 획기적으로 개선합니다.#LlamaFactory#Triton#MoE#DeepLearning#Optimization2026년 5월 20일댓글 수 로딩 중
[sglang] Qwen3.5 및 Qwen3_Next 모델의 NPU 성능 향상을 위한 Triton 커널 퓨전 최적화NPU 환경에서 Qwen3.5 및 Qwen3_Next 모델의 어텐션 레이어 성능을 극대화하는 Triton 커널 퓨전 최적화 분석#NPU#Triton#Kernel Fusion#Optimization#Qwen3.5#Qwen3_Next#LLM2026년 5월 20일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: GPU-CPU 간 불필요한 동기화 제거하기vLLM에서 GPU와 CPU 간의 불필요한 동기화를 제거하여 추론 성능을 극대화하는 최적화 기법을 분석합니다.#vLLM#LLM#Performance#GPU#Optimization2026년 5월 19일댓글 수 로딩 중
[triton] AMD GPU에서 불필요한 워프 로드를 제거하여 성능을 최적화한 Triton PR 분석AMD GPU 아키텍처에서 불필요한 데이터 로드를 방지하여 VGPR 사용량을 최대 35% 줄이는 최적화 기법을 분석합니다.#Triton#AMD GPU#Optimization#LLVM#Compiler2026년 5월 19일댓글 수 로딩 중
[cpython] CPython 성능 최적화: 임시 리스트를 튜플로 변환할 때의 '아이템 스틸' 기법CPython 3.14에서 도입된 INTRINSIC_LIST_TO_TUPLE 최적화를 통해 불필요한 메모리 복사를 제거하고 성능을 8%까지 끌어올린 과정을 살펴봅니다.#CPython#Python Internals#Optimization#Performance#C-API2026년 5월 18일댓글 수 로딩 중
[loki] Grafana Loki: Range Aggregation 성능 최적화와 메모리 할당 감소overlapping window 시나리오에서 불필요한 메모리 할당을 제거하여 성능을 39% 향상시킨 사례 분석#Golang#Grafana Loki#Performance#Optimization#Memory Management2026년 5월 18일댓글 수 로딩 중
[vllm] vLLM Qwen3.5 GDN 최적화: `einops.rearrange`를 `torch.flatten`으로 교체하여 20배 성능 향상!vLLM에서 Qwen3.5 GDN 레이어의 `einops.rearrange`를 `torch.flatten`으로 교체하여 Python 오버헤드를 줄이고 최대 21배의 속도 향상을 달성한 최적화 사례.#vLLM#PyTorch#Optimization#Performance#DeepLearning#Qwen3.5#einops#flatten2026년 5월 18일댓글 수 로딩 중
[sglang] DeepSeekV4 Fused MoE Triton 커널 지원 추가: 성능 최적화 분석DeepSeekV4 모델의 Fused MoE Triton 커널 지원을 추가하여 추론 성능을 향상시킨 PR 분석#AI#LLM#Optimization#Triton#DeepSeekV4#MoE2026년 5월 18일댓글 수 로딩 중
[sglang] SGLang에서 torch.compile을 활용한 Wan 모델 추론 가속화torch.compile을 도입하여 MUSA 및 CUDA 환경에서 Wan 모델의 추론 성능을 최대 1.09배 향상시킨 최적화 사례를 분석합니다.#SGLang#torch.compile#MUSA#CUDA#Optimization2026년 5월 17일댓글 수 로딩 중
[sglang] SGLang 멀티모달 파이프라인의 VAE 정밀도 최적화: bf16 도입을 통한 메모리 효율 개선SGLang의 멀티모달 파이프라인에서 VAE 정밀도를 fp32에서 bf16으로 변경하여 메모리 사용량을 최대 8.7% 절감한 사례를 분석합니다.#SGLang#Optimization#VAE#bf16#MemoryEfficiency2026년 5월 16일댓글 수 로딩 중
[vllm] vLLM의 혁신: Breakable CUDA Graph로 LLM 추론 성능 최적화vLLM이 Breakable CUDA Graph를 도입하여 LLM 추론 성능을 향상시킨 PR 분석.#vLLM#CUDA Graph#Optimization#LLM Inference#Deep Learning2026년 5월 16일댓글 수 로딩 중
[sglang] SGLang의 MLA KV 캐시 쓰기 최적화: TMA Bulk-Store 도입TMA Bulk-Store와 Triton 커널 최적화를 통해 MLA KV 캐시 쓰기 성능을 최대 12배 향상시킨 기술적 여정.#SGLang#CUDA#Triton#LLM#Optimization#TMA2026년 5월 15일댓글 수 로딩 중
[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.#SGLang#LLM#NPU#Optimization#Memory Management2026년 5월 15일댓글 수 로딩 중
[pydantic-ai] Pydantic AI, 도구 검색 기능 도입으로 에이전트의 도구 관리 혁신Pydantic AI가 네이티브 도구 검색과 사용자 정의 전략을 도입하여 대규모 도구 세트 관리를 최적화합니다.#Pydantic AI#Agent#Tool Management#Optimization#LLM2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor 최적화 도입vLLM의 Triton 통합 어텐션 커널에 Tensor Descriptor를 도입하여 Intel XPU의 2D 블록 읽기 성능을 향상시킵니다.#vLLM#Triton#Optimization#Deep Learning#LLM2026년 5월 13일댓글 수 로딩 중
[onnxruntime] [ONNX Runtime] PagedAttention의 FA 경로 최적화 및 정확성 개선PagedAttention의 FA 경로에서 휴리스틱 기반 max_query_len을 실제 계산값으로 대체하여 성능 향상 및 CUDA 오류를 해결했습니다.#ONNXRuntime#CUDA#FlashAttention#Optimization#LLM2026년 5월 12일댓글 수 로딩 중
[vllm] vLLM의 MLA 성능 극대화: RoPE, KV Cache, q_concat 연산 퓨전 최적화vLLM에서 MLA 모델의 RoPE, KV Cache, q_concat 연산을 하나의 커널로 통합하여 추론 성능을 크게 향상시킨 최적화 기법을 분석합니다.#vLLM#LLM#CUDA#Optimization#MLA#DeepSeek-R12026년 5월 11일댓글 수 로딩 중
[cpython] CPython inspect.getattr_static 성능 개선: 일반적인 메타클래스 사례 최적화CPython의 inspect.getattr_static 함수가 일반적인 메타클래스 사용 시 성능을 개선하는 방법을 분석합니다.#Python#CPython#Performance#Optimization#Inspect#Metaclass2026년 5월 10일댓글 수 로딩 중
[sglang] SGLang의 MHC 파이프라인 최적화: 커널 퓨전과 DeepGemm 도입MHC 파이프라인에서 커널 퓨전과 DeepGemm을 활용해 연산 효율을 극대화하고 HBM 접근을 최소화하여 성능을 개선했습니다.#SGLang#CUDA#Triton#DeepGemm#Optimization2026년 5월 10일댓글 수 로딩 중
[sglang] [AMD/ROCm] Temporal Unfolding을 통한 VAE Conv3D 성능 최적화 분석ROCm 환경에서 VAE의 CausalConv3d를 수학적으로 동일한 Batched Conv2D로 변환하여 3.6%의 성능 향상을 달성한 기법을 소개합니다.#AMD#ROCm#Deep Learning#Optimization#SGLang#PyTorch2026년 5월 8일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 MLA를 활용한 Diffusion 모델 성능 최적화FP8 MLA ASM 커널을 도입하여 AMD MI355X 환경에서 Diffusion 모델의 추론 속도를 최대 19% 향상시켰습니다.#AMD#ROCm#FP8#MLA#SGLang#Optimization2026년 5월 8일댓글 수 로딩 중
[cpython] CPython arraymodule 최적화: 구조체 메모리 레이아웃 개선을 통한 성능 향상CPython의 arraymodule 내 arraydescr 구조체에서 포인터 대신 고정 크기 배열을 사용하여 메모리 효율성과 접근 속도를 개선한 사례를 분석합니다.#CPython#C#Optimization#Memory Management#Performance2026년 5월 6일댓글 수 로딩 중
[sglang] SGLang의 Unified Radix Cache를 위한 SWA HiCache 지원 최적화SGLang에서 SWA(Sliding Window Attention)를 HiCache와 통합하여 메모리 효율성과 추론 성능을 크게 향상시킨 변경사항 분석#SGLang#LLM#KV-Cache#Optimization#HiCache2026년 5월 6일댓글 수 로딩 중
[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.#HuggingFace#Transformers#Python#Optimization#Performance2026년 5월 4일댓글 수 로딩 중
[cpython] CPython JIT 최적화: 불변 및 불사 객체에 대한 불필요한 의존성 제거하기CPython JIT 엔진에서 Immutable 및 Immortal 클래스에 대한 감시(Watch)를 생략하여 성능을 개선한 사례를 분석합니다.#CPython#JIT#Optimization#Python-Internals#Performance2026년 5월 3일댓글 수 로딩 중
[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.#LlamaFactory#Qwen-VL#Optimization#Performance#LLM2026년 5월 3일댓글 수 로딩 중
[vllm] vLLM IR의 진화: maybe_inplace 오버로드를 통한 메모리 최적화vLLM IR에 maybe_inplace 오버로드를 도입하여 커널 실행 시 입력 텐서 메모리를 재사용함으로써 성능을 개선했습니다.#vLLM#IR#Optimization#PyTorch#Memory Management2026년 5월 2일댓글 수 로딩 중
[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.#SGLang#NPU#LLM#Optimization#Quantization2026년 5월 2일댓글 수 로딩 중
[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.#CUDA#PyTorch#Optimization#LoRA#Performance2026년 4월 30일댓글 수 로딩 중
[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.#vLLM#CUDA#Triton#Kernel#Bugfix#Deep Learning#Optimization2026년 4월 30일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 RISC-V Vector(RVV) 최적화: SGEMM과 Softmax 성능을 3배로 끌어올리기RISC-V 아키텍처에서 스칼라 연산에 의존하던 ONNX Runtime이 RVV 확장을 통해 SGEMM 및 Softmax 연산 성능을 최대 3.6배 개선했습니다.#ONNXRuntime#RISC-V#RVV#Optimization#MLAS#SIMD2026년 4월 30일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[cpython] Python dataclasses 모듈의 성능 최적화: inspect 모듈의 Lazy Import 도입dataclasses 모듈의 무거운 inspect 의존성을 Lazy Import로 전환하여 모듈 로드 시간을 약 20-30% 개선했습니다.#Python#CPython#Performance#Optimization#dataclasses2026년 4월 26일댓글 수 로딩 중
[cpython] CPython 테스트 최적화: 30초의 대기를 1초 미만으로 단축하는 소켓 핸드셰이크 기법subprocess 테스트의 불필요한 sleep을 제거하고 루프백 소켓 기반의 동기화 메커니즘을 도입하여 테스트 실행 시간을 획기적으로 단축한 사례를 분석합니다.#Python#CPython#Subprocess#Testing#Optimization#Socket2026년 4월 26일댓글 수 로딩 중
[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.#SGLang#PyTorch#CUDA#Optimization#LLM2026년 4월 25일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.#AMD GPU#FP8#Triton Kernel#KV Cache#Optimization#SGLang2026년 4월 25일댓글 수 로딩 중
[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.#FlashInfer#LLM#Autotuning#Optimization#MoE2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.#vLLM#Quantization#Humming#LLM#Inference#Optimization2026년 4월 24일댓글 수 로딩 중
[cpython] Python statistics.fmean() 성능 최적화: itertools.compress를 활용한 오버헤드 제거itertools.compress를 활용하여 튜플 생성 오버헤드를 제거하고 fmean의 성능을 약 39% 향상시킨 사례를 분석합니다.#Python#Performance#Optimization#CPython#itertools2026년 4월 23일댓글 수 로딩 중
[triton] Triton Gluon Attention 커널의 Autotuning을 통한 성능 최적화 분석Triton Gluon 예제에서 커널 설정을 동적으로 선택하는 Autotuning 로직을 도입하여 다양한 시나리오에서 성능을 개선했습니다.#Triton#GPU#Optimization#Attention#DeepLearning2026년 4월 23일댓글 수 로딩 중
[vllm] vLLM CPU 성능 최적화: NEON 하드웨어를 위한 고속 Exp 연산 도입vLLM의 CPU 어텐션 연산에서 저정밀도 데이터 타입을 위한 고속 exp 루틴을 도입하여 성능을 3-4% 향상시켰습니다.#vLLM#CPU#Optimization#NEON#Performance2026년 4월 23일댓글 수 로딩 중
[sglang] SGLang Triton 커널 최적화: libdevice.tanh 도입과 2D Strided Tensor 지원Triton 커널에서 수치적 불안정성을 해결하기 위해 libdevice.tanh를 도입하고, 2D Strided Tensor를 지원하도록 구조를 개선한 사례를 분석합니다.#Triton#CUDA#LLM#SGLang#Optimization#DeepLearning2026년 4월 22일댓글 수 로딩 중
[논문리뷰] Evaluation-driven Scaling for Scientific Discovery본 논문은 과학적 발견 과정에서 LLM을 활용한 Trial-and-error 루프의 확장성(Scaling) 문제를 공식화하고 이를 체계적으로 해결하고자 합니다.#Review#Test-Time Scaling#Scientific Discovery#Evaluation-driven Discovery#LLM#Optimization#Symbolic Laws#GPU Kernel2026년 4월 21일댓글 수 로딩 중
[abtop] Codex 세션 파일 검색 성능 개선: lsof 대신 /proc/pid/fd 활용Codex 세션에서 열린 JSONL 파일을 찾는 방식을 lsof에서 /proc/pid/fd로 변경하여 Linux 환경에서 성능을 크게 향상시켰습니다.#Rust#Performance#Linux#Optimization#System Programming2026년 4월 21일댓글 수 로딩 중
[vllm] vLLM의 콜드 스타트 성능을 20% 향상시키는 비동기 최적화 기법백그라운드 스레드를 활용한 모델 가중치 프리페치와 forkserver 사전 준비로 vLLM 엔진 구동 시간을 획기적으로 단축했습니다.#vLLM#Performance#Optimization#Python#Multiprocessing2026년 4월 21일댓글 수 로딩 중
[vllm] vLLM CI 속도 개선: 70분 걸리던 MoE 테스트를 5분으로 단축하기불필요한 조합을 제거하고 핵심 시나리오 중심의 테스트 케이스 재설계를 통해 CI 성능을 14배 개선한 사례를 분석합니다.#vLLM#CI/CD#Optimization#MoE#Python2026년 4월 18일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: TDM 로드 파이프라이닝 개선을 통한 성능 향상Triton의 AMD gfx1250 GEMM 커널에서 TDM 로드 시점을 조정하여 파이프라인 효율을 극대화한 최적화 사례 분석.#Triton#AMD#GPU#Optimization#GEMM#HPC2026년 4월 18일댓글 수 로딩 중
[open-webui] Open WebUI 성능 최적화: 불필요한 DB 중복 조회 제거하기인증 과정에서 이미 로드된 사용자 정보를 재조회하던 비효율적인 DB 호출을 제거하여 API 응답 속도를 개선했습니다.#Python#FastAPI#Performance#Optimization#OpenWebUI2026년 4월 17일댓글 수 로딩 중
[open-webui] Open WebUI 채팅 파일 중복 제거 로직 최적화: O(n*m)에서 O(n+m)으로Open WebUI의 채팅 파일 중복 제거 로직을 리스트에서 세트로 변경하여 성능을 크게 개선했습니다.#Python#Optimization#Performance#Backend#Open WebUI2026년 4월 17일댓글 수 로딩 중
[cpython] CPython의 BINARY_OP_EXTEND 최적화: 타입 정보 전파를 통한 성능 개선BINARY_OP_EXTEND에 리스트와 튜플 연산을 추가하고, 타입 정보를 JIT에 전달하여 가드(guard)를 제거함으로써 성능을 최적화했습니다.#CPython#Python Internals#Performance#JIT#Optimization2026년 4월 16일댓글 수 로딩 중
[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.#SGLang#Diffusion Models#RL#Optimization#Performance#API2026년 4월 15일댓글 수 로딩 중
[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.#vLLM#LLM#KV Cache#Quantization#Optimization#Triton#GPU Memory2026년 4월 15일댓글 수 로딩 중
[cpython] CPython JIT 최적화: 키워드 및 바운드 메서드 호출 성능 개선CPython JIT 컴파일러가 키워드 인수와 바운드 메서드 호출을 더 효율적으로 처리하도록 최적화하는 방법을 설명합니다.#Python#CPython#JIT#Optimization#Performance2026년 4월 13일댓글 수 로딩 중
[sglang] Whisper 모델 추론 성능 극대화: 동시 Prefill 요청을 위한 배치 인코더 최적화Whisper 모델의 동시 Prefill 요청 처리 시 인코더 순차 호출 문제를 해결하여 추론 성능을 크게 향상시킨 PR 분석.#AI#Machine Learning#LLM#Whisper#Optimization#Performance#Inference2026년 4월 12일댓글 수 로딩 중
[sglang] SGLang의 AMD AITER AllReduce 최적화: 하드코딩된 제약 제거 및 성능 개선AITER AllReduce+RMSNorm 융합 커널의 하드코딩된 hidden_dim 허용 목록을 제거하고 경계 조건을 최적화하여 범용성과 성능을 개선했습니다.#SGLang#AMD#ROCm#AllReduce#Optimization#LLM2026년 4월 12일댓글 수 로딩 중
[cpython] CPython JIT 최적화: _POP_TWO/_POP_CALL 연산 분해를 통한 성능 향상CPython JIT 컴파일러에서 불필요한 스택 조작을 제거하여 성능을 개선하는 코드 변경 분석.#Python#CPython#JIT#Optimization#Performance2026년 4월 11일댓글 수 로딩 중
[cpython] Python 3.14 내부 최적화: 가변 인자 Opcode의 스택 관리 개선CALL_BUILTIN_FAST_WITH_KEYWORDS 옵코드가 인자를 스택에 남기도록 변경되어 에러 발생 시의 스택 복구 효율성이 향상되었습니다.#CPython#Python3.14#Optimization#Bytecode#VirtualMachine2026년 4월 11일댓글 수 로딩 중
[cpython] CPython JIT 최적화: 복합 마이크로 오퍼레이션(uOp)의 분해를 통한 효율성 개선CPython JIT의 복합 uOp를 단순한 단위 작업으로 분해하여 코드 생성의 유연성과 유지보수성을 높인 최적화 사례를 분석합니다.#CPython#JIT#Python Internals#Optimization2026년 4월 10일댓글 수 로딩 중
[cpython] CPython JIT 최적화: MAKE_FUNCTION의 불필요한 참조 카운팅 제거CPython JIT 컴파일러에서 MAKE_FUNCTION 바이트코드의 불필요한 참조 카운팅을 제거하여 성능을 개선합니다.#CPython#JIT#Optimization#Python Internals#Performance2026년 4월 9일댓글 수 로딩 중
[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.#SGLang#NIXL#KV Cache#Disaggregation#TP Heterogeneous#Optimization2026년 4월 7일댓글 수 로딩 중
[cpython] CPython 최적화: _BINARY_OP_EXTEND를 통한 타입 정보 전파로 성능 향상CPython의 Tier 2 옵티마이저에서 _BINARY_OP_EXTEND의 타입 정보 전파를 개선하여 성능을 35% 향상시켰습니다.#Python#CPython#Optimization#JIT#Compiler2026년 4월 6일댓글 수 로딩 중
[sglang] SGLang에서 DeepSeek V3.2를 위한 IndexCache 최적화 구현DeepSeek V3.2 모델의 IndexCache 도입을 통해 추론 성능을 약 6.4% 향상시킨 기술적 분석과 구현 상세.#SGLang#DeepSeek#LLM#Optimization#Inference2026년 4월 5일댓글 수 로딩 중
[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.#VLM#Optimization#SGLang#Multimodal#Caching#Performance2026년 4월 4일댓글 수 로딩 중
[sglang] SGLang에서 FA4(FlashAttention 4)와 Speculative Decoding의 완벽한 결합FA4를 Speculative Decoding 파이프라인에 통합하여 저지연 추론 성능을 극대화하는 최적화 기법을 분석합니다.#SGLang#FlashAttention4#SpeculativeDecoding#LLM#Optimization2026년 4월 4일댓글 수 로딩 중
[ollama] Ollama의 Gemma 4 모델 Flash Attention 비활성화: 성능 회귀(Regression) 해결 사례Gemma 4 모델에서 Flash Attention 적용 후 발생한 40% 이상의 성능 저하 문제를 Revert를 통해 해결한 사례를 분석합니다.#Ollama#FlashAttention#Performance#Gemma4#Optimization2026년 4월 4일댓글 수 로딩 중
[vllm] vLLM 성능 최적화: cuMemcpyBatchAsync를 활용한 KV 캐시 스왑 효율화vLLM에서 KV 캐시 오프로딩 시 발생하는 개별 복사 오버헤드를 cuMemcpyBatchAsync로 통합하여 최대 7.4배의 성능 향상을 달성했습니다.#vLLM#CUDA#Performance#KV-Cache#Optimization2026년 4월 3일댓글 수 로딩 중
[vllm] vLLM의 Mamba 모델 성능 최적화: Conv State 레이아웃 개선Mamba 모델의 Conv State 레이아웃을 SD에서 DS로 변경하여 TTFT 성능을 약 1.5배 개선하고 HeterogeneousTP를 지원합니다.#vLLM#Mamba#Optimization#DeepLearning#Performance2026년 4월 3일댓글 수 로딩 중
[sglang] SGLang의 디코드 성능 향상을 위한 Temperature 및 Softmax 커널 융합Triton 커널을 활용해 Temperature Scaling과 Softmax를 하나로 융합하여 메모리 접근을 최적화하고 디코드 지연 시간을 최대 4배 이상 단축했습니다.#SGLang#Triton#CUDA#LLM#Optimization2026년 4월 2일댓글 수 로딩 중
[openclaw] Vitest 모듈 로딩 최적화 및 테스트 병렬성 증대를 통한 CI 성능 개선Vitest 테스트 모듈 로딩 최적화와 병렬 처리 확대를 통해 CI 빌드 시간을 단축합니다.#Vitest#CI#Performance#Optimization#Testing2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ArtHOI: Taming Foundation Models for Monocular 4D Reconstruction of Hand-Articulated-Object Interactions기존의 Hand-Object Interaction (HOI) 재구성 연구는 주로 강체(Rigid Object)만을 다루거나, 관절형 물체의 4D 재구성을 위해 사전에 스캔된 3D 템플릿 혹은 다중 시점(Multi-view) 비디오와 같은 제약적인 입력을 필요로 했습니다.#Review#4D Reconstruction#Hand-Object Interaction#Foundation Models#Articulated Objects#Monocular Video#Optimization2026년 3월 31일댓글 수 로딩 중
[feast] Feast Online Serving 최적화: 3단계 데이터 변환을 단일 패스로 통합하기Feast의 온라인 피처 서빙 경로에서 불필요한 반복과 메모리 할당을 제거하여 성능을 개선한 사례를 분석합니다.#Feast#Python#Performance#Optimization#Data Engineering2026년 3월 31일댓글 수 로딩 중
[triton] AMD GPU Descriptor Encoding 최적화 패스 추가AMD GFX1250 타겟에서 tensor descriptor의 shared memory encoding을 padded 방식으로 최적화하는 OptimizeDescriptorEncoding 패스를 추가한 PR을 분석합니다.#Triton#AMD GPU#Tensor Descriptor#Shared Memory#Optimization2026년 3월 30일댓글 수 로딩 중
[CPython] dict 접근 최적화: known hash를 활용한 중복 해시 계산 제거CPython의 dict 자료구조에서 이미 알고 있는 hash 값을 활용하여 중복 해시 연산을 제거하는 JIT/인터프리터 최적화 분석.#CPython#Performance#Dict#JIT#Optimization#C2026년 3월 30일댓글 수 로딩 중
[sglang] VLM ShmPointerMMData 최적화: multi-pickle 안전성과 deferred unwrapSGLang의 VLM 멀티모달 데이터 공유 메모리 래퍼를 리팩토링하여 multi-pickle 안전성을 확보하고, broadcast 이후 deferred unwrap 패턴을 도입한 분석.#SGLang#VLM#Shared Memory#Multimodal#Optimization#IPC2026년 3월 27일댓글 수 로딩 중
[triton] GSan AxisInfo 기반 Shadow Update 중복 제거로 2~10배 성능 향상Triton의 Global Sanitizer에서 AxisInfo의 contiguity 속성을 활용하여 중복 shadow update를 제거하고, FP16 matmul에서 최대 10배 속도 향상을 달성한 PR을 분석합니다.#Triton#GPU#Sanitizer#Optimization#MLIR2026년 3월 27일댓글 수 로딩 중
[sglang] SGLang의 FA3 디코드 최적화: get_scheduler_metadata 도입FlashAttention-3의 타일 스케줄링 메타데이터를 사전 계산하여 레이어별 오버헤드를 제거하는 최적화 기법을 분석합니다.#SGLang#FlashAttention#CUDA#Optimization#LLM2026년 3월 25일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: SGPR 활용과 루프 최적화를 통한 GEMM 성능 향상Triton의 AMD GPU 커널에서 VGPR 의존성을 제거하고 루프 분기 최적화를 통해 성능을 개선한 사례를 분석합니다.#Triton#AMD#GPU#Optimization#GEMM2026년 3월 25일댓글 수 로딩 중
[triton] AMD WMMA Utilization 개선: Unroll 제거와 상수 폴딩LLVM 코드 생성의 루프 언롤링 문제로 인한 레지스터 스필링을 방지하고, 상수 폴딩으로 VALU 연산을 줄여 WMMA 활용률을 개선한 PR을 분석합니다.#Triton#AMD#WMMA#Gluon#Optimization2026년 3월 25일댓글 수 로딩 중
[cpython] CPython JIT 최적화: Float 연산의 In-place 변환을 통한 성능 향상CPython JIT의 Tier 2 옵티마이저에서 고유 참조된 Float 피연산자를 In-place로 변환하여 메모리 할당을 줄이고 성능을 개선하는 방법.#CPython#JIT#Optimization#Python Internals#Performance2026년 3월 24일댓글 수 로딩 중
[CPython] JIT float 연산 최적화 — 유일 참조 피연산자 재사용CPython JIT에서 유일 참조 float 객체를 in-place 변경하여 메모리 할당을 제거한다#CPython#JIT#Optimization#Float2026년 3월 24일댓글 수 로딩 중
[triton] getTranspositionSelectors 알고리즘 단순화 및 복원다중 mixed transposition에서의 정합성 문제를 해결하고, prmt selector 알고리즘의 수학적 분해를 명확히 정리한 사례를 분석합니다.#Triton#GPU#LinearLayout#Optimization#Algorithm2026년 3월 19일댓글 수 로딩 중
[axolotl] Axolotl: Triton 커널을 활용한 Entropy 및 Selective Log Softmax 최적화Axolotl에서 Triton 커널을 사용하여 Entropy 및 Selective Log Softmax 계산을 최적화하여 훈련 성능을 크게 향상시킨 PR 분석.#Triton#PyTorch#Optimization#Deep Learning#Performance#GPU2026년 3월 19일댓글 수 로딩 중
[ACE-Step-1.5] 외부 의존성을 걷어내고 성능을 잡다: ACE-Step 1.5의 커스텀 vLLM 엔진 도입기nano-vllm 의존성을 제거하고, CFG 버그 수정 및 Jetson 최적화를 포함한 자체 추론 엔진 구축 사례를 분석합니다.#LLM#vLLM#Inference#Optimization#Python#PyTorch2026년 3월 18일댓글 수 로딩 중
[논문리뷰] Progressive Residual Warmup for Language Model PretrainingTransformer 기반 Large Language Models (LLMs) 의 사전 훈련 안정성과 수렴 속도를 향상시키는 것을 목표로 합니다. 특히, 계층적으로 쌓인 Transformer 아키텍처에서 깊은 레이어들이 얕은 레이어들이 안정화되기 전에 기여하여 발생하는 비효율적인 업데이트 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Transformer#Pretraining Stability#Residual Connections#Warmup Schedule#Layer-wise Learning#Optimization2026년 3월 8일댓글 수 로딩 중
[triton] Multi-CTA 예제에서 Program ID를 Shared Memory에 저장하여 재계산 방지CLC 타일 스케줄러에서 planar snake ID를 shared memory에 저장하여 consumer와 epilogue 파티션 간 재계산을 제거한 최적화를 분석합니다.#Triton#Gluon#GPU#MultiCTA#Optimization2026년 3월 5일댓글 수 로딩 중
[Open WebUI] StatusHistory 비교에 O(1) 길이 검사 추가로 직렬화 비용 절감Open WebUI의 스트리밍 응답에서 매 프레임마다 JSON.stringify로 상태 히스토리를 비교하던 것에 배열 길이 사전 검사를 추가하여 불필요한 직렬화를 건너뛰는 최적화를 분석합니다.#Open WebUI#Svelte#Performance#Optimization#Streaming2026년 3월 1일댓글 수 로딩 중
[feast] Feast 성능 최적화: 엔티티 키 직렬화 Hot Path 2.4배 개선하기Feast의 온라인 스토어 성능을 좌우하는 엔티티 키 직렬화 로직을 Fast Path 도입과 memoryview 활용으로 최대 141% 개선한 사례를 분석합니다.#Python#Performance#Feast#Optimization#Zero-copy2026년 2월 19일댓글 수 로딩 중
[Ray RLlib] SingleAgentEnvRunner의 validate 호출 위치 최적화로 3.1배 속도 향상Ray RLlib의 SingleAgentEnvRunner에서 매 스텝마다 호출되던 validate를 에피소드 완료 시점으로 이동하여 add_step_data의 누적 시간을 16.7초에서 5.43초로 줄인 최적화를 분석합니다.#Ray#RLlib#Python#Performance#Reinforcement Learning#Optimization2026년 2월 19일댓글 수 로딩 중
[Ray Serve] Pack 스케줄링 최적화: O(replicas x total_replicas)에서 O(replicas x nodes)로Ray Serve의 pack 스케줄링 전략에서 레플리카마다 전체 리소스를 재계산하던 O(N^2) 로직을 사전 계산 + 증분 업데이트로 변경하여 대규모 배포 성능을 크게 개선한 PR을 분석합니다.#Ray#Ray Serve#Performance#Scheduling#Python#Optimization2026년 2월 13일댓글 수 로딩 중
[triton] Triton AMD 백엔드: 8-Wave PingPong Attention 커널 구현 분석AMD GPU 환경에서 성능 향상을 위한 8-Wave PingPong Attention 커널 구현 및 파이프라이닝 최적화 기법을 살펴봅니다.#Triton#AMD#GPU#Attention#Optimization2026년 2월 10일댓글 수 로딩 중
[triton] Triton NVIDIA GPU 백엔드: WarpGroupDotWaitOp 최적화 및 동기화 개선WarpGroupDotWaitOp에 warpGroupLocal 속성을 추가하여 불필요한 배리어 동기화를 제거하고 성능을 최적화했습니다.#Triton#NVIDIA#GPU#Optimization#Compiler2026년 2월 9일댓글 수 로딩 중
[triton] Triton 컴파일러 최적화: In-thread 트리 리덕션 도입Triton의 리덕션 연산을 트리 구조로 변환하고 인-스레드 벡터화를 적용하여 Gluon 어텐션 커널 성능을 개선했습니다.#Triton#Compiler#Optimization#LLVM#GPU2026년 2월 6일댓글 수 로딩 중
[triton] ConSan 컴파일 타임 19분에서 34초로 단축 - 대규모 최적화Triton Concurrency Sanitizer의 컴파일 시간을 33배 개선한 대규모 PR을 분석합니다. IR 크기 축소, warp-local layout, 헬퍼 함수 중복제거 등 다양한 최적화가 포함됩니다.#Triton#ConSan#Compile Time#MLIR#Optimization2026년 2월 5일댓글 수 로딩 중
[triton] Triton AMD GPU 백엔드: v_perm 명령어를 활용한 레이아웃 변환 최적화AMD GPU에서 v_perm 명령어를 사용하여 8비트 데이터 레이아웃 변환 시 성능을 개선하고 명령어 수를 최적화하는 방법#Triton#AMD#GPU#LLVM#Optimization2026년 1월 30일댓글 수 로딩 중
[uvloop] uvloop의 SSL 성능 최적화: SSLWantReadError 비용 줄이기SSLWantReadError 예외 발생을 최소화하여 SSL 읽기 성능을 개선한 uvloop의 최적화 사례를 분석합니다.#uvloop#Python#SSL#Performance#Optimization2026년 1월 30일댓글 수 로딩 중
[uvloop] uvloop의 SSL 성능 최적화: Python Vectorcall 우회하기Python의 vectorcall 인터페이스 대신 C 레벨의 직접 호출과 인라인화를 통해 SSLProtocol 성능을 개선한 사례 분석.#Python#uvloop#Performance#Optimization#SSL2026년 1월 30일댓글 수 로딩 중
[Loki] 인덱스 빌더 크기 추정 최적화: 반복 계산 제거로 97% 성능 개선Grafana Loki의 데이터 객체 인덱스 빌더에서 매번 모든 테넌트를 순회하며 크기를 계산하던 방식을 증분 추적으로 변경하여 97%의 성능 향상을 달성한 PR을 분석합니다.#Grafana Loki#Performance#Go#Index Builder#Optimization2026년 1월 28일댓글 수 로딩 중
[triton] NVIDIA canSkipBarSync 복원으로 MoE 커널 18GBps 성능 향상Blackwell 지원 과정에서 비활성화된 barrier skip 최적화를 보수적으로 재설계하여 복원하고, persistent MoE 커널 성능을 개선한 PR을 분석합니다.#Triton#NVIDIA#Membar#Optimization#MoE2026년 1월 22일댓글 수 로딩 중
[triton] Triton Hopper 커널 최적화: Persistent Matmul에서 Epilogue 오버랩 제거하기Triton의 Persistent Hopper Matmul에서 Epilogue 오버랩을 비활성화하여 150 GBps의 성능 향상을 달성한 사례를 분석합니다.#Triton#GPU#Optimization#HPC#Matmul2026년 1월 22일댓글 수 로딩 중
[triton] AMD membarFilter에 bufferID 고려 추가AMD 백엔드의 membar 분석에서 buffer ID를 고려하여 불필요한 barrier 삽입을 줄이고, 재사용된 allocation 간 누락된 barrier를 올바르게 삽입하도록 개선한 PR을 분석합니다.#Triton#AMD GPU#Memory Barrier#Shared Memory#Optimization2026년 1월 22일댓글 수 로딩 중
[triton] Triton 컴파일 타임 최적화: Alias Matrix 생략을 통한 성능 개선Triton의 CONSAN 모드에서 불필요한 Alias Matrix 생성을 제거하여 컴파일 시간을 약 15% 단축한 최적화 사례를 분석합니다.#Triton#Compiler#Optimization#LLVM#Performance2026년 1월 20일댓글 수 로딩 중
[triton] Triton 커널 최적화: High Occupancy Persistent Matmul 구현을 통한 성능 향상Triton의 Persistent Matmul 커널에서 SM 점유율을 최적화하여 H200 기준 15% 성능 향상을 달성한 사례 분석.#Triton#GPU#CUDA#Optimization#Matmul2026년 1월 20일댓글 수 로딩 중
[triton] [Blackwell] NVIDIA 차세대 아키텍처를 위한 Triton의 tcgen05.ld.red 최적화 분석Blackwell 아키텍처의 TMEM 로드 및 리덕션 동시 수행 기능을 Triton Gluon에 구현하여 성능을 최적화한 사례를 분석합니다.#Triton#Blackwell#NVIDIA#GPU#Optimization#MLIR2026년 1월 16일댓글 수 로딩 중
[논문리뷰] Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers대규모 언어 모델(LLM) 학습 시 Weight Decay(WD) 가 가중치 행렬의 스케일을 '노이즈-WD 평형' 상태에 고정시켜 데이터에 최적화된 스케일 학습을 방해하는 문제를 해결하는 것이 목표입니다.#Review#Large Language Models#Weight Decay#Learnable Multipliers#Scale Adaptation#Optimization#µP Parametrization#Adam#Muon2026년 1월 8일댓글 수 로딩 중
[triton] SwiGLU 커널에 ex2.approx.ftz 적용으로 1-2 GBps 성능 개선Triton의 SwiGLU 커널에서 exp 연산을 CUDA의 ex2.approx.ftz 인라인 어셈블리로 대체하여, 수치적 안전성을 유지하면서 처리량을 개선한 PR을 분석합니다.#Triton#Kernel#SwiGLU#PTX#Optimization2026년 1월 8일댓글 수 로딩 중
[triton] Triton AMD 백엔드 최적화: Subtiling을 통한 GEMM 성능 향상AMD GPU 환경에서 Subtiling 기법을 도입하여 공유 메모리 사용량을 줄이고 레지스터 스필을 제거한 GEMM 최적화 분석.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 19일댓글 수 로딩 중
[triton] Triton PROTON: CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack API를 추가하여 성능을 대폭 개선Triton PROTON 라이브러리의 CUDA 그래프 프로파일링 오버헤드를 줄이고 MsgPack 직렬화 API를 추가하여 성능을 3배~10배 향상시킨 코드 변경 분석.#Triton#PROTON#CUDA#Profiling#Optimization#MsgPack#C++#Python2025년 12월 19일댓글 수 로딩 중
[triton] Triton GFX1250 MXFP GEMM 커널의 4-Warp 스케줄링 최적화 분석Triton의 AMD GFX1250 MXFP GEMM 커널에서 4-Warp 스케줄링 도입 및 비동기 복사(Async Copy)를 통한 성능 최적화 사례를 살펴봅니다.#Triton#AMD#GEMM#GPU#Optimization2025년 12월 18일댓글 수 로딩 중
[triton] wgmma wait(0)를 accumulator 첫 사용 시점으로 지연하여 MMA-epilogue 오버랩 달성파이프라인된 wgmma 루프 이후의 wait(0)를 accumulator 첫 사용 시점으로 지연시켜, epilogue 연산과 MMA를 오버랩한 PR을 분석합니다.#Triton#NVIDIA#WGMMA#Pipeline#Optimization2025년 12월 17일댓글 수 로딩 중
[triton] Triton AMD 커널 최적화: 루프 언롤링(Loop Unrolling)을 통한 성능 향상Triton AMD FlashAttention 커널에서 루프 언롤링(unroll_factor=2)을 적용하여 레지스터 회전 효율을 높이고 연산 오버헤드를 줄인 사례 분석.#Triton#AMD#GPU#Optimization#FlashAttention2025년 12월 15일댓글 수 로딩 중
[논문리뷰] TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels기존 단안 3D 트래킹 방법론의 한계인 카메라 움직임과 전경 동적 객체 움직임의 분리 미흡 및 새롭게 출현하는 동적 객체의 밀집 트래킹 불가 문제를 해결하는 것입니다.#Review#Monocular 3D Tracking#World-centric Coordinates#Dense Tracking#Camera Pose Estimation#Dynamic Object Tracking#Optimization#2D Track Upsampling2025년 12월 9일댓글 수 로딩 중
[triton] Triton에서 Ragged Mode를 위한 X Scale Swizzling 최적화Triton의 Ragged Mode에서 MXFP8 연산 시 X scale swizzling을 지원하여 행렬 곱셈 지연 시간을 줄이는 최적화 구현.#Triton#GPU#Optimization#MXFP8#MatMul2025년 12월 8일댓글 수 로딩 중
[triton] Triton Blackwell 아키텍처를 위한 MXFP8 입력 스케일 스위즐링 최적화Blackwell GPU에서 MXFP8 행렬 곱셈 시 입력 스케일 스위즐링과 TMA를 도입하여 성능을 1.7배에서 1.1배로 개선했습니다.#Triton#Blackwell#GPU#Optimization#MXFP82025년 12월 2일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.229: COCO Segmentation 평가 300% 가속화 분석외부 라이브러리 의존성을 제거하고 PyTorch 기반의 최적화된 RLE 인코딩 및 마스크 스케일링을 도입하여 성능을 3배 향상시킨 사례를 분석합니다.#Ultralytics#YOLO#Optimization#PyTorch#ComputerVision2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Superpositional Gradient Descent: Harnessing Quantum Principles for Model Training본 연구는 대규모 언어 모델(LLM) 훈련 시 고차원, 비볼록(non-convex) 손실 함수 공간에서 기존 경사 하강법(Gradient Descent) 의 한계(지역 최적해 수렴, 느린 수렴 속도)를 극복하고자 합니다.#Review#Quantum Computing#Optimization#Machine Learning#Transformers#Gradient Descent#Superposition#Large Language Models#Hybrid Quantum-Classical2025년 11월 13일댓글 수 로딩 중
[triton] Triton PROTON: FinalizeOp 최적화를 통한 프로파일링 오버헤드 개선Triton PROTON의 FinalizeOp를 리팩토링하여 warp 단위 병렬 쓰기를 구현하고 프로파일링 오버헤드를 최대 2배 이상 개선했습니다.#Triton#GPU#Optimization#Compiler#Profiling2025년 11월 7일댓글 수 로딩 중
[triton] Triton에서의 MXFP 변환 성능 최적화: TMA와 벡터화된 연산 활용Triton의 MXFP8/MXFP4 변환 커널을 TMA와 벡터화된 스토어, 타일링 튜닝을 통해 대폭 가속화한 사례를 분석합니다.#Triton#MXFP#GPU#Optimization#HPC2025년 11월 6일댓글 수 로딩 중
[논문리뷰] TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training언어 모델 사전 훈련 과정에서 고정된 데이터 혼합 전략은 모델의 학습 선호도가 동적으로 변화함에 따라 최적의 성능을 달성하지 못합니다. 본 논문은 이러한 진화하는 데이터 선호도를 효율적으로 관찰 하고, 이를 기반으로 데이터 혼합 비율을 동적으로 조정 하여 모델 성능을 극대화하는 것을 목표로 합니다.#Review#Language Model Pre-training#Dynamic Data Mixing#Data Influence#Group Influence#Optimization#Regression Model#LLM Training2025년 9월 1일댓글 수 로딩 중
[논문리뷰] Efficient Agents: Building Effective Agents While Reducing Cost본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 확장성과 접근성을 위협하는 급증하는 비용 문제 를 해결하고자 합니다.#Review#LLM Agents#Cost Efficiency#Performance-Cost Trade-off#Agent Frameworks#GAIA Benchmark#Optimization#Resource Management2025년 8월 7일댓글 수 로딩 중
[ultralytics] Ultralytics 8.3.215: 세그멘테이션 마스크 처리 성능 최적화 분석YOLO 세그멘테이션의 crop_mask 연산을 3배 가속화한 최적화 전략과 성능 개선 사례를 살펴봅니다.#YOLO#PyTorch#Optimization#ComputerVision#Performance2025년 10월 16일댓글 수 로딩 중
[triton] AMD ds_read_tr 명령어 제한 완화로 더 유연한 레이아웃 지원AMD GPU의 ds_read_tr 명령어에 대한 불필요한 제한을 제거하고 임의의 linear layout에서도 활용 가능하게 개선한 PR 분석.#Triton#AMD#LDS#LinearLayout#SharedMemory#Optimization2025년 10월 16일댓글 수 로딩 중
[triton] [NVIDIA] SM120을 위한 FP4 Native Scaled Matmul 지원 및 성능 최적화 분석Triton에서 FP4 데이터 타입의 하드웨어 가속을 구현하여 Llama3-8B 벤치마크 성능을 약 2배 향상시킨 사례를 분석합니다.#Triton#NVIDIA#FP4#GPU#Optimization#LLM2025년 10월 20일댓글 수 로딩 중
[triton] Triton GPU 컴파일러 최적화: TMEM Store의 레이아웃 변환 폴딩(Folding) 기법Triton의 TMEM Store 연산에서 불필요한 레이아웃 변환을 제거하여 Flex Attention 성능 저하를 해결한 최적화 기법을 분석합니다.#Triton#Compiler#Optimization#MLIR#GPU2025년 10월 3일댓글 수 로딩 중