최신 포스트

[sglang] LTX2.3 HQ Denoising 성능 최적화: Attention Skip을 활용한 효율적인 모델 호출

LTX2.3 HQ 가이드 Denoising 과정에서 불필요한 Attention 계산을 건너뛰어 성능을 개선했습니다.

#sglang #optimization #performance #deep learning #denoising #attention

2026년 5월 3일

[sglang] SGLang UnifiedRadixTree에 HiCache 프레임워크 도입: 하이브리드 모델 성능 최적화

UnifiedRadixTree에 HiCache를 통합하여 Hybrid Linear 및 DeepSeek 모델의 캐시 효율성과 안정성을 대폭 개선했습니다.

#SGLang #LLM #Caching #Performance #RadixTree

2026년 5월 3일

[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남

vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.

#vLLM #Humming #MoE #Quantization #Performance Optimization #DeepSeek-V4 #MXFP4

2026년 5월 3일

[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성

비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.

#LlamaFactory #Qwen-VL #Optimization #Performance #LLM

2026년 5월 3일

[vllm] vLLM IR의 진화: maybe_inplace 오버로드를 통한 메모리 최적화

vLLM IR에 maybe_inplace 오버로드를 도입하여 커널 실행 시 입력 텐서 메모리를 재사용함으로써 성능을 개선했습니다.

#vLLM #IR #Optimization #PyTorch #Memory Management

2026년 5월 2일

[openclaw] OpenClaw: 런타임 플러그인 레지스트리 재사용을 통한 성능 최적화

OpenClaw의 `resolvePreparedExtraParams` 함수 최적화를 통해 임베디드 턴당 1.9초의 동기 비용을 절감했습니다.

#OpenClaw #성능 최적화 #캐싱 #WeakMap #플러그인 #JavaScript

2026년 5월 2일

[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화

HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석

#AI #딥러닝 #최적화 #Triton #HunyuanVideo #VAE

2026년 5월 2일

[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입

NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.

#SGLang #NPU #LLM #Optimization #Quantization

2026년 5월 2일

[cpython] Python JIT의 GDB 디버깅 지원: .eh_frame 생성을 통한 스택 언와인딩 구현

CPython JIT 코드의 GDB 백트레이스 지원을 위해 .eh_frame과 DWARF CFI를 동적으로 생성하는 최적화 기법을 분석합니다.

#CPython #JIT #GDB #DWARF #Debugging #LowLevel

2026년 5월 2일

[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석

FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.

#FlashInfer #CUDA #DiT #SageAttention #Quantization #DeepLearning

2026년 5월 1일

[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석

ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.

#vLLM #ROCm #DeepSeek #MLA #Performance Optimization #Triton

2026년 5월 1일

[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화

vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.

#vLLM #LLM #Triton #Performance #JIT

2026년 5월 1일

[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화

SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석

#LLM #SGLang #Inference Optimization #KV Cache #Disaggregation #Performance

2026년 5월 1일

[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상

vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.

#vLLM #AI #딥러닝 #최적화 #LLM #어텐션 #DCP #All-to-All

2026년 5월 1일

[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용

CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.

#CUDA #PyTorch #Optimization #LoRA #Performance

2026년 4월 30일

[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화

Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.

#vLLM #LLM #DistributedInference #KVCache #PerformanceOptimization

2026년 4월 30일

[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선

vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.

#vLLM #CUDA #Triton #Kernel #Bugfix #Deep Learning #Optimization

2026년 4월 30일

[onnxruntime] ONNX Runtime의 RISC-V Vector(RVV) 최적화: SGEMM과 Softmax 성능을 3배로 끌어올리기

RISC-V 아키텍처에서 스칼라 연산에 의존하던 ONNX Runtime이 RVV 확장을 통해 SGEMM 및 Softmax 연산 성능을 최대 3.6배 개선했습니다.

#ONNXRuntime #RISC-V #RVV #Optimization #MLAS #SIMD

2026년 4월 30일

[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.

#Review #Embodied AI #World Models #Diffusion Transformer #3D Reconstruction #Robotic Manipulation #Asynchronous Denoising #Unified Modeling

2026년 4월 29일

[논문리뷰] FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

본 연구는 현대 패션 AI 시스템이 특정 패션 하우스나 에디터의 심미적 논리를 데이터 내에 내재화하면서도, 이를 사용자에게 투명하게 공개하지 않는 불투명성 문제를 해결하고자 합니다.

#Review #Fashion AI #Multimodal CNN #Visual Channel Probing #Editorial Identity Encoding #Hierarchical Color Prediction #Transparency

2026년 4월 29일