최신 포스트

[논문리뷰] Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

본 논문은 기존 controllable diffusion 모델들의 파편화로 인한 시스템적 병목 현상을 해결하고자 합니다. 현재의 제어 방법들은 특정 백본에 종속적인 구조를 가지며, 각기 다른 학습 파이프라인과 런타임 훅을 사용하여 인프라 재사용이나 다중 제어 기법의 결합이 매우 어렵습니다.

#Review #Diffusion Models #Controllable Generation #Plugin Framework #KV-Cache #Template Model #Modular Design

2026년 4월 29일

[논문리뷰] A Survey on LLM-based Conversational User Simulation

본 논문은 LLM의 발달로 가능해진 사용자 시뮬레이션 기술의 체계적인 분류와 분석이 부재한 문제를 해결하고자 한다. 기존의 사용자 시뮬레이션은 특정 도메인(예: 추천 시스템)에 한정되거나 대규모 데이터 수집의 어려움으로 인해 확장성에 한계가 있었다.

#Review #Conversational User Simulation #Large Language Models #Persona Modeling #Synthetic Data Generation #Multi-agent Systems #Dialogue Evaluation

2026년 4월 29일

[triton] Triton의 Ragged Matmul 메타데이터 계산 최적화: CPU 동기화 없는 효율적인 프로파일링

Ragged matmul의 메타데이터 계산을 다수의 Torch 커널에서 단일 Triton 커널로 통합하여 오버헤드를 획기적으로 줄였습니다.

#Triton #GPU #Performance #Profiling #Matmul

2026년 4월 29일

[sglang] FlashInfer TRTLLM-Gen MoE 커널 최적화: NemotronH 모델 지원 및 성능 향상

FlashInfer TRTLLM-Gen MoE 커널에 NemotronH 모델 지원을 추가하고 성능을 최적화한 PR 분석.

#FlashInfer #TRTLLM #MoE #NemotronH #FP4 #FP8 #Kernel Optimization #Deep Learning #Performance

2026년 4월 29일

[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석

SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.

#LLM #KV Cache #Quantization #Optimization #SGLang #FP4 #NVFP4

2026년 4월 29일

[논문리뷰] GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

본 연구는 GUI Agent를 모바일 기기와 같은 자원 제약 환경에 효과적으로 배포하기 위해, 기존 대규모 VLM이 가진 과도한 연산 비용과 메모리 요구사항 문제를 해결하고자 한다. 대부분의 최신 VLM은 2.5B 이상의 파라미터를 사용하여 온디바이스 환경에서 활용하기 어렵다는 한계가 있다.

#Review #GUI Agent #Vision-Language Model #Visual Grounding #Data Refinement #Model Compression #Encoder-Decoder Architecture

2026년 4월 28일

[논문리뷰] AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark

본 논문은 현재 GUI 에이전트 평가 방식이 단순한 시각적 요소 매칭에 치중되어 있어, 실제 디지털 환경에서의 복잡한 상태 변화와 GUI 동역학을 이해하는 능력을 측정하지 못한다는 문제를 해결하고자 한다.

#Review #GUI Agents #Multi-Modal Benchmarking #Functional Understanding #Interaction Outcome Prediction #Vision-Language Models #Hierarchical Decomposition

2026년 4월 28일

[cpython] Python subprocess.communicate() 타임아웃 성능 개선: 느린 자식 프로세스 응답 방식 변경

subprocess.communicate()의 타임아웃 테스트에서 발생하는 긴 지연 시간을 해결하여 테스트 속도를 크게 향상시킵니다.

#python #subprocess #performance #testing #optimization

2026년 4월 26일

[cpython] Python dataclasses 모듈의 성능 최적화: inspect 모듈의 Lazy Import 도입

dataclasses 모듈의 무거운 inspect 의존성을 Lazy Import로 전환하여 모듈 로드 시간을 약 20-30% 개선했습니다.

#Python #CPython #Performance #Optimization #dataclasses

2026년 4월 26일

[cpython] Python `subprocess` 테스트 최적화: `communicate()` 타임아웃 테스트 속도 향상

`subprocess.communicate()` 타임아웃 테스트의 런타임을 30초에서 1초 미만으로 단축하는 최적화 분석.

#Python #subprocess #testing #optimization #performance #socket

2026년 4월 26일

[cpython] CPython 테스트 최적화: 30초의 대기를 1초 미만으로 단축하는 소켓 핸드셰이크 기법

subprocess 테스트의 불필요한 sleep을 제거하고 루프백 소켓 기반의 동기화 메커니즘을 도입하여 테스트 실행 시간을 획기적으로 단축한 사례를 분석합니다.

#Python #CPython #Subprocess #Testing #Optimization #Socket

2026년 4월 26일

[sglang] SGLang 성능 최적화: torch.cuda.empty_cache() 호출 제어를 통한 가중치 업데이트 병목 해결

가중치 업데이트 시 발생하는 불필요한 GPU 캐시 동기화 오버헤드를 제거하여 추론 지연 시간을 개선했습니다.

#SGLang #PyTorch #CUDA #Optimization #LLM

2026년 4월 25일

[sglang] AMD ROCm 환경에서의 성능 최적화: Triton을 활용한 Fused QK GemmaRMSNorm 구현

ROCm 플랫폼에서 4개의 개별 커널을 하나의 Triton 커널로 통합하여 QK 정규화 성능을 개선한 사례를 분석합니다.

#SGLang #Triton #ROCm #Performance Optimization #LLM

2026년 4월 25일

[sglang] SGLang MoE 라우팅 최적화: AMD GPU에서 aiter.biased_grouped_topk 활용

AMD GPU에서 MoE 라우팅의 sigmoid 스코어링을 위한 커널 최적화로 처리량 2.4% 향상.

#SGLang #MoE #AMD GPU #최적화 #성능 #AIter #GPU Kernel

2026년 4월 25일

[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상

AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.

#AMD GPU #FP8 #Triton Kernel #KV Cache #Optimization #SGLang

2026년 4월 25일

[flashinfer] FlashInfer 오토튜너 최적화: 하이브리드 토큰 버킷 도입

기존 2의 거듭제곱 방식의 토큰 버킷을 하이브리드 방식으로 개선하여 MoE 및 GEMM 커널의 튜닝 정확도와 성능을 향상시켰습니다.

#FlashInfer #LLM #Autotuning #Optimization #MoE

2026년 4월 24일

[flashinfer] FlashInfer, CuTe DSL 기반 FMHA 커널 통합으로 사전 생성(Prefill) 성능 극대화

FlashInfer가 CuTe DSL FMHA 커널을 통합하여 사전 생성(Prefill) 성능을 최적화했습니다.

#FlashInfer #CuTe DSL #FMHA #Prefill #최적화 #성능 개선 #딥러닝 #LLM

2026년 4월 24일

[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기

vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.

#vLLM #Quantization #Humming #LLM #Inference #Optimization

2026년 4월 24일

[onnxruntime] ONNX Runtime 스레드 풀의 지능형 대기: Exponential Backoff 도입으로 성능 및 전력 효율성 향상

ONNX Runtime 스레드 풀의 스핀 루프에 Exponential Backoff를 도입하여 성능과 전력 효율성을 개선하는 방법을 분석합니다.

#ONNX Runtime #성능 최적화 #스레드 풀 #Exponential Backoff #병렬 처리

2026년 4월 24일

[flashinfer] FlashInfer의 고성능 분산 연산: All-Gather Matmul 최적화 분석

FlashInfer에 추가된 All-gather Matmul 연산은 Push-Wait 알고리즘을 통해 분산 환경에서 GEMM 성능을 극대화합니다.

#FlashInfer #Distributed Computing #CUDA #GEMM #Performance Optimization

2026년 4월 24일