최신 포스트

[sglang] [SGLang] VAE 병렬 디코딩 최적화: CFG 병렬화와의 시너지 분석

SGLang에서 CFG 병렬화 시 VAE 디코딩을 모든 Rank가 참여하도록 개선하여 디코딩 속도를 31% 향상시킨 사례를 분석합니다.

#Diffusion #SGLang #VAE #Parallel Computing #Optimization

2026년 6월 13일

[sglang] SGLang PD-Disaggregation 최적화: Mori 백엔드에서의 증분 KV 전송 구현

SGLang의 PD-Disaggregation 환경에서 Mori 전송 백엔드와 Radix Cache를 연동하여 중복 KV 전송을 제거하고 TTFT를 20% 이상 개선했습니다.

#SGLang #LLM #KV-Cache #Optimization #Distributed-Systems

2026년 6월 13일

[sglang] Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화

Apple Silicon MLX 환경에서 SwitchGLU MoE 블록의 SwiGLU 활성화를 Gate Gather-QMV로 융합하여 성능 최적화하는 PR 분석

#Apple Silicon #MLX #MoE #Optimization #SGLang

2026년 6월 13일

[triton] Triton AMD StreamK GEMM 커널의 Race Condition 해결: 동기화 로직 최적화 분석

AMD GPU 환경에서 StreamK GEMM 커널의 동기화 결함(Race Condition)을 해결하고 안정성을 확보한 코드 변경 사항을 분석합니다.

#Triton #AMD #GEMM #StreamK #GPU #Concurrency

2026년 6월 13일

[sglang] Cutlass FP8 Blockwise GEMM 최적화: 불필요한 패딩 제거로 GPU 성능 향상

Cutlass FP8 GEMM에서 반복적인 액티베이션 패딩을 제거하여 GPU 커널 오버헤드를 줄이고 처리량을 2.1% 개선한 최적화.

#SGLang #GPU Optimization #FP8 Quantization #Deep Learning Inference #Cutlass #Performance Tuning

2026년 6월 12일

[vllm] vLLM에서 Lfm2VL 모델을 위한 Encoder CUDA Graph 최적화 적용

Lfm2VL 모델에 Encoder CUDA Graph를 도입하여 낮은 배치 사이즈에서 추론 지연 시간을 10-20% 개선했습니다.

#vLLM #CUDA Graph #LLM #Optimization #Performance

2026년 6월 12일

[triton] Triton에서 i8 행렬 곱셈 최적화: 레지스터 압력 감소 및 성능 향상

Triton의 i8 행렬 곱셈에서 레지스터 압력을 줄이고 성능을 향상시키는 최적화 기법을 분석합니다.

#Triton #AI #최적화 #행렬 곱셈 #GPU

2026년 6월 12일

[onnxruntime] ONNX Runtime CUDA MoE: 소규모 배치 디코딩을 위한 SoftmaxTopK 라우터 최적화

ONNX Runtime CUDA MoE에서 소규모 배치 디코딩 시 SoftmaxTopK 라우터 성능을 개선하는 방법을 기술합니다.

#ONNX Runtime #CUDA #MoE #최적화 #성능

2026년 6월 12일

[onnxruntime] WebGPU FlashAttention 최적화: 커널 퓨전과 가변 시퀀스 길이 지원으로 성능 극대화

WebGPU FlashAttention의 커널 퓨전과 가변 시퀀스 길이 지원을 통한 성능 개선 분석

#WebGPU #FlashAttention #ONNX Runtime #최적화 #성능 개선 #AI 가속

2026년 6월 11일

[sglang] SGLang Diffusion 모델의 FP8 GEMM 최적화: 41.5% 성능 향상 달성

Ideogram4 모델의 FP8 weight-only linear 연산을 Fused W8A8 FP8 GEMM으로 교체하여 추론 속도를 1.7배 개선했습니다.

#SGLang #Diffusion #FP8 #GEMM #Optimization #CUDA

2026년 6월 11일

[sglang] ROCm 아키텍처별 최적화: 런타임 디스패치로 성능 극대화

ROCm 커널의 멀티 아키텍처 지원 강화 및 런타임 최적화를 통해 성능을 향상시킨 PR 분석

#ROCm #GPU 최적화 #커널 프로그래밍 #FP8 #TopK #성능 향상

2026년 6월 11일

[sglang] SGLang에서 Qwen3-Next FP8 MoE 최적화: H200을 위한 Shared-Expert Fusion

H200 환경에서 Qwen3-Next FP8 MoE 모델의 성능을 극대화하기 위한 Shared-Expert Fusion 및 Triton 커널 최적화 분석.

#SGLang #LLM #MoE #FP8 #Triton #H200

2026년 6월 11일

[논문리뷰] Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback

본 논문은 현대의 T2I 모델이 생성하는 이미지의 국소적이고 미묘한 결함을 효과적으로 진단하고 해결하지 못하는 기존 scalar 기반 평가 방식의 한계를 해결하고자 합니다.

#Review #Text-to-Image #Structured Defect Grounding #VLM #Diffusion Model Alignment #Reinforcement Learning #BoxFlow-GRPO #Dataset

2026년 6월 11일

[논문리뷰] WeaveBench: A Long-Horizon, Real-World Benchmark for Computer-Use Agents with Hybrid Interfaces

기존의 컴퓨터 에이전트 평가 벤치마크는 주로 단일 브라우저 기반 작업에 국한되어 있어, 실제 데스크톱 환경의 복잡한 Long-Horizon 작업 수행 능력을 평가하는 데 한계가 있습니다.

#Review #Computer-Use Agent #Long-Horizon #Real-World Benchmark #Hybrid Interface #Human-Computer Interaction #Agent Evaluation

2026년 6월 11일

[논문리뷰] WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

본 논문은 기존 월드 모델들이 복잡한 매니퓰레이션 태스크를 수행할 때 겪는 High Latency와 Context Length의 제한 문제를 해결하고자 한다.

#Review #World Model #Robotic Manipulation #Autoregressive Inference #Transformer #Efficiency #Generative Modeling

2026년 6월 11일

[논문리뷰] Visual Para-Thinker++: A Single-Policy Multi-Agent Framework for Visual Reasoning

본 논문은 기존의 단일 체인 추론(Single-chain Reasoning) 방식이 시각적 추론 과정에서 범하는 조기 지각적 확신(Early Perceptual Commitment)과 환각(Hallucination) 문제를 해결하기 위해 고안되었습니다.

#Review #Multimodal Large Language Models #Multi-Agent Framework #Visual Reasoning #Role-Decoupled Optimization #Inference Efficiency

2026년 6월 11일

[논문리뷰] VideoMDM: Towards 3D Human Motion Generation From 2D Supervision

본 연구는 3D Human Motion 데이터셋의 희소성과 구축 비용 문제를 극복하기 위해 2D 영상으로부터 3D 모션을 생성하는 새로운 접근 방식을 제안합니다.

#Review #3D Human Motion Generation #Diffusion Models #2D Supervision #Motion Synthesis #Video Analysis

2026년 6월 11일

[논문리뷰] VIA-SD: Verification via Intra-Model Routing for Speculative Decoding

본 논문은 기존의 Speculative Decoding이 가진 이분법적(accept 또는 full recompute) 검증 구조의 한계를 극복하고자 합니다.

#Review #Speculative Decoding #Hierarchical Verification #Intra-Model Routing #KL Divergence #LLM Inference #Efficiency #Slim-Verifier

2026년 6월 11일

[논문리뷰] TreeSeeker: Tree-Structured Trial, Error, and Return in Deep Search

본 논문은 복잡한 Deep Search 과정에서 에이전트가 단일 선형 궤적을 맹목적으로 따르거나, 체계적인 규칙 없이 분기를 탐색하여 예산을 낭비하는 문제를 해결합니다.

#Review #Deep Search #Tree-Structured Search #Tree-Search #TreeMem #Textual UCB #Branch-and-Return #Agentic Workflow

2026년 6월 11일

[논문리뷰] ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

본 논문은 LLM의 도구 사용 능력을 평가할 때 기존의 End-to-End 방식이 모델의 내부 지식(Parametric Knowledge)과 추론 능력을 명확히 구분하지 못하는 한계를 해결하기 위해 제안되었습니다.

#Review #LLM #Tool Learning #Parametric Knowledge #Diagnostic Framework #Tool Auditing #Evaluation

2026년 6월 11일