[LlamaFactory] LlamaFactory: Qwen-VL 비디오 토큰 전처리 최적화로 450배 성능 향상 달성비디오 디코딩 없이 메타데이터만으로 토큰 확장을 수행하여 Qwen-VL 전처리 속도를 450배 이상 개선한 사례를 분석합니다.#LlamaFactory#Qwen-VL#Optimization#Performance#LLM2026년 5월 3일댓글 수 로딩 중
[vllm] vLLM IR의 진화: maybe_inplace 오버로드를 통한 메모리 최적화vLLM IR에 maybe_inplace 오버로드를 도입하여 커널 실행 시 입력 텐서 메모리를 재사용함으로써 성능을 개선했습니다.#vLLM#IR#Optimization#PyTorch#Memory Management2026년 5월 2일댓글 수 로딩 중
[openclaw] OpenClaw: 런타임 플러그인 레지스트리 재사용을 통한 성능 최적화OpenClaw의 `resolvePreparedExtraParams` 함수 최적화를 통해 임베디드 턴당 1.9초의 동기 비용을 절감했습니다.#OpenClaw#성능 최적화#캐싱#WeakMap#플러그인#JavaScript2026년 5월 2일댓글 수 로딩 중
[sglang] HunyuanVideo VAE 디코딩 성능 향상: GroupNorm SiLU 커널 최적화HunyuanVideo VAE 디코딩 시 GroupNorm SiLU 연산의 성능을 극적으로 개선한 Triton 커널 최적화 분석#AI#딥러닝#최적화#Triton#HunyuanVideo#VAE2026년 5월 2일댓글 수 로딩 중
[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.#SGLang#NPU#LLM#Optimization#Quantization2026년 5월 2일댓글 수 로딩 중
[cpython] Python JIT의 GDB 디버깅 지원: .eh_frame 생성을 통한 스택 언와인딩 구현CPython JIT 코드의 GDB 백트레이스 지원을 위해 .eh_frame과 DWARF CFI를 동적으로 생성하는 최적화 기법을 분석합니다.#CPython#JIT#GDB#DWARF#Debugging#LowLevel2026년 5월 2일댓글 수 로딩 중
[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.#FlashInfer#CUDA#DiT#SageAttention#Quantization#DeepLearning2026년 5월 1일댓글 수 로딩 중
[vllm] [vLLM] ROCm 환경에서의 DeepSeek-V2/V3 성능 극대화를 위한 MLA 최적화 분석ROCm 환경에서 DeepSeek 모델의 MLA 성능을 높이기 위한 KV 캐시 레이아웃 셔플, FP8 Sparse MLA 지원 및 메타데이터 빌더 최적화 기법을 살펴봅니다.#vLLM#ROCm#DeepSeek#MLA#Performance Optimization#Triton2026년 5월 1일댓글 수 로딩 중
[vllm] vLLM의 첫 추론 지연 문제 해결: forward_native 샘플러 커널 웜업 최적화vLLM v1 엔진에서 FlashInfer 도입으로 발생한 JIT 컴파일 지연 문제를 샘플러 웜업 로직 개선으로 해결한 사례를 분석합니다.#vLLM#LLM#Triton#Performance#JIT2026년 5월 1일댓글 수 로딩 중
[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석#LLM#SGLang#Inference Optimization#KV Cache#Disaggregation#Performance2026년 5월 1일댓글 수 로딩 중
[vllm] vLLM, DCP A2A 어텐션 백엔드 최적화: 단일 All-to-All 콜렉티브로 성능 향상vLLM의 DCP A2A 어텐션 백엔드가 부분 어텐션 출력과 LSE를 단일 콜렉티브로 묶어 성능을 개선했습니다.#vLLM#AI#딥러닝#최적화#LLM#어텐션#DCP#All-to-All2026년 5월 1일댓글 수 로딩 중
[sglang] CUDA 그래프 호환성을 위한 LoRA 연산 최적화: 스칼라 할당 대신 슬라이스 제로화 사용CUDA 그래프 캡처를 방해하는 CPU-GPU 동기화 지점을 제거하여 LoRA 연산의 효율성을 높였습니다.#CUDA#PyTorch#Optimization#LoRA#Performance2026년 4월 30일댓글 수 로딩 중
[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.#vLLM#LLM#DistributedInference#KVCache#PerformanceOptimization2026년 4월 30일댓글 수 로딩 중
[vllm] vLLM chunk_kda 커널의 숨겨진 상태(h) 레이아웃 불일치 버그 수정 및 정확도 개선vLLM의 chunk_kda 커널에서 h 행렬 레이아웃 불일치 버그를 수정하여 모델 정확도를 크게 개선합니다.#vLLM#CUDA#Triton#Kernel#Bugfix#Deep Learning#Optimization2026년 4월 30일댓글 수 로딩 중
[onnxruntime] ONNX Runtime의 RISC-V Vector(RVV) 최적화: SGEMM과 Softmax 성능을 3배로 끌어올리기RISC-V 아키텍처에서 스칼라 연산에 의존하던 ONNX Runtime이 RVV 확장을 통해 SGEMM 및 Softmax 연산 성능을 최대 3.6배 개선했습니다.#ONNXRuntime#RISC-V#RVV#Optimization#MLAS#SIMD2026년 4월 30일댓글 수 로딩 중
[논문리뷰] Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising본 논문은 기존 Unified World Model들이 2D 픽셀 공간에만 국한되어 기하학적 구조에 대한 이해가 부족하며, 고차원 비디오 생성과 저차원 행동 예측 사이의 효율적인 균형을 맞추지 못한다는 문제를 해결하고자 한다.#Review#Embodied AI#World Models#Diffusion Transformer#3D Reconstruction#Robotic Manipulation#Asynchronous Denoising#Unified Modeling2026년 4월 29일댓글 수 로딩 중
[논문리뷰] FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing본 연구는 현대 패션 AI 시스템이 특정 패션 하우스나 에디터의 심미적 논리를 데이터 내에 내재화하면서도, 이를 사용자에게 투명하게 공개하지 않는 불투명성 문제를 해결하고자 합니다.#Review#Fashion AI#Multimodal CNN#Visual Channel Probing#Editorial Identity Encoding#Hierarchical Color Prediction#Transparency2026년 4월 29일댓글 수 로딩 중
[논문리뷰] Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion본 논문은 기존 controllable diffusion 모델들의 파편화로 인한 시스템적 병목 현상을 해결하고자 합니다. 현재의 제어 방법들은 특정 백본에 종속적인 구조를 가지며, 각기 다른 학습 파이프라인과 런타임 훅을 사용하여 인프라 재사용이나 다중 제어 기법의 결합이 매우 어렵습니다.#Review#Diffusion Models#Controllable Generation#Plugin Framework#KV-Cache#Template Model#Modular Design2026년 4월 29일댓글 수 로딩 중
[논문리뷰] A Survey on LLM-based Conversational User Simulation본 논문은 LLM의 발달로 가능해진 사용자 시뮬레이션 기술의 체계적인 분류와 분석이 부재한 문제를 해결하고자 한다. 기존의 사용자 시뮬레이션은 특정 도메인(예: 추천 시스템)에 한정되거나 대규모 데이터 수집의 어려움으로 인해 확장성에 한계가 있었다.#Review#Conversational User Simulation#Large Language Models#Persona Modeling#Synthetic Data Generation#Multi-agent Systems#Dialogue Evaluation2026년 4월 29일댓글 수 로딩 중
[triton] Triton의 Ragged Matmul 메타데이터 계산 최적화: CPU 동기화 없는 효율적인 프로파일링Ragged matmul의 메타데이터 계산을 다수의 Torch 커널에서 단일 Triton 커널로 통합하여 오버헤드를 획기적으로 줄였습니다.#Triton#GPU#Performance#Profiling#Matmul2026년 4월 29일댓글 수 로딩 중