최신 포스트

[vllm] vLLM XPU 백엔드 최적화: W8A8 및 W8A16 FP8 Linear 커널 도입

vLLM의 XPU 백엔드에 W8A8 및 W8A16 FP8 Linear 커널을 추가하여 다양한 양자화 세분성을 지원하고 성능을 최적화했습니다.

#vLLM #XPU #FP8 #Quantization #LLM

2026년 7월 4일

[uv] uv, 휠 파일명 파싱 최적화: 중복 작업 제거와 성능 향상

uv가 휠 파일명 파싱 시 중복되는 패키지 이름 정규화 작업을 제거하여 성능을 개선한 PR을 분석합니다.

#uv #performance #optimization #python #wheel

2026년 7월 4일

[vllm] vLLM의 Dynamic Speculative Decoding을 위한 Full CUDA Graph 최적화

Dynamic Speculative Decoding(DSD)에서 MRv2와 Full CUDA Graph를 결합하여 추론 성능을 극대화하는 최적화 기법을 소개합니다.

#vLLM #CUDA Graph #Speculative Decoding #LLM #Performance Optimization

2026년 7월 4일

[uv] Interning을 통한 uv의 Simple API 파싱 최적화: 메모리와 속도 두 마리 토끼 잡기

중복되는 requires-python 명세서를 Interning하여 메모리 사용량을 10% 줄이고 파싱 속도를 개선한 uv의 최적화 기법을 살펴봅니다.

#Rust #Optimization #uv #Python #Interning #Performance

2026년 7월 4일

[flashinfer] FlashInfer의 새로운 TGV GEMM 백엔드: CuTeDSL을 활용한 Blackwell 최적화

FlashInfer에 Blackwell 아키텍처를 위한 고성능 TGV GEMM 백엔드가 추가되었습니다. CuTeDSL 기반의 2-CTA 모드로 성능을 극대화합니다.

#FlashInfer #GEMM #CUDA #Blackwell #CuTeDSL #GPU Optimization

2026년 7월 3일

[sglang] SGLang: performance_mode=speed에서 torch.compile 기본 활성화로 성능 최적화

SGLang의 'speed' 모드에서 torch.compile을 기본 활성화하여 성능을 극대화하는 PR 분석.

#SGLang #PyTorch #torch.compile #성능 최적화 #GPU #JIT 컴파일

2026년 7월 3일

[uv] uv의 성능 최적화: BTreeSet에서 Vec으로의 전환을 통한 site-packages 스캔 오버헤드 개선

uv의 site-packages 스캔 과정에서 BTreeSet 대신 Vec을 사용하여 메모리 할당 오버헤드를 줄이고 성능을 최적화한 사례를 분석합니다.

#uv #rust #performance #optimization #python

2026년 7월 3일

[vllm] [vLLM] Triton 커널 최적화로 Unlimited-OCR 성능 3.7배 끌어올리기: R-SWA의 효율적 구현

Unlimited-OCR의 R-SWA 마스크를 TritonAttention 백엔드에 직접 구현하여 FlexAttention 대비 최대 3.7배의 성능 향상을 달성한 과정을 분석합니다.

#vLLM #Triton #LLM Optimization #Attention #R-SWA #OCR

2026년 7월 3일

[논문리뷰] WorldDirector: Building Controllable World Simulators with Persistent Dynamic Memory

본 논문은 기존 비디오 월드 모델이 시야를 벗어난 객체의 움직임과 정체성을 유지하지 못하는 문제를 해결하기 위해 WorldDirector를 제안합니다.

#Review #World Model #Video Generation #Dynamic Memory #Object Permanence #Controllable Simulation #Flow Matching #Spatial-Aware Control

2026년 7월 2일

[논문리뷰] When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

본 논문은 기존의 검색 에이전트 벤치마크가 사용자의 질의가 완전하고 명시적이라는 비현실적인 가정을 바탕으로 수행된다는 한계를 지적한다 .

#Review #Deep Search #Large Language Models #Ambiguity Detection #Interactive Clarification #Multi-hop Reasoning #Benchmark #Information Retrieval

2026년 7월 2일

[논문리뷰] Transferability for General Reasoning: An Automated Curriculum for Multi-Domain RLVR

본 논문은 Multi-domain RLVR에서 도메인별 학습 효율과 일반화 성능이 불균일하다는 문제에 주목합니다 [Figure 1(a)].

#Review #Multi-domain RL #RLVR #Curriculum Learning #Gradient-based Transferability #LLM Reasoning #Bandit Algorithm

2026년 7월 2일

[논문리뷰] SkillCoach: Self-Evolving Rubrics for Evaluating and Enhancing Agentic Skill-Use

본 논문은 기존의 LLM Agent 평가 방식이 최종적인 Verifier 성공 여부에만 의존하여, 실제 과정상의 비효율이나 부적절한 Skill 사용 방식을 간과하는 문제를 해결하고자 한다.

#Review #Agentic Skill-Use #Self-Evolving Rubrics #Process Supervision #Skill Libraries #Trajectory Evaluation #LLM Agents #SFT

2026년 7월 2일

[논문리뷰] Representation Distribution Matching for One-Step Visual Generation

본 연구는 고품질의 one-step 이미지 생성을 위해 distribution matching 패러다임의 설계 공간(design space)을 체계적으로 규명하고자 합니다. 기존 연구들은 비교 대상(discrepancy)이나 표현 방식(representation)에 대한 선택이 고정되어 있어 품질의 한계가 명확했습니다.

#Review #One-step Generation #Distribution Matching #MMD #Nyström #Representation Learning #Constrained Optimization #SWr14

2026년 7월 2일

[논문리뷰] Program-as-Weights: A Programming Paradigm for Fuzzy Functions

본 논문은 현대의 복잡한 소프트웨어 작업들이 정교한 규칙으로 정의되기 어렵다는 점에 주목하여, 이를 LLM API에 의존할 때 발생하는 높은 비용, 낮은 로컬리티(locality), 재생산성 문제 등을 해결하고자 한다 .

#Review #Fuzzy Functions #Program-as-Weights #Neural Compiler #Parameter-Efficient Fine-Tuning #LoRA #Small Language Models #FuzzyBench

2026년 7월 2일

[논문리뷰] PACE: A Proxy for Agentic Capability Evaluation

본 논문은 Agentic Benchmark 평가의 극심한 비용 및 복잡성 문제를 해결하기 위해 Non-Agentic 데이터를 프록시(Proxy)로 활용하는 방안을 제안한다. 기존 에이전트 벤치마크는 복잡한 인프라와 긴 수행 시간으로 인해 평가 빈도가 제한적이며 접근성이 떨어진다.

#Review #LLM Agents #Agentic Evaluation #Benchmark Compression #Instance Selection #Proxy Framework #Model Capabilities

2026년 7월 2일

[논문리뷰] Optimizing Visual Generative Models via Distribution-wise Rewards

본 논문은 시각적 생성 모델의 강화학습 과정에서 발생하는 Reward Hacking과 이로 인한 생성 다양성 저하 및 시각적 결함 문제를 해결하고자 합니다.

#Review #Distribution-wise Reward #Reinforcement Learning #Visual Generative Models #Subset-replace Strategy #Model Merging #Flow Matching #FID

2026년 7월 2일

[논문리뷰] Multi-Resolution Flow Matching: Training-Free Diffusion Acceleration via Staged Sampling

본 논문은 최신 diffusion 및 flow matching 모델의 연산 비용이 지나치게 높다는 점을 해결하고자 한다. 기존의 timestep distillation이나 feature caching 방식은 모델 학습이 필요하거나 가속 효율이 제한적이라는 한계가 존재한다.

#Review #Diffusion Models #Flow Matching #Training-Free Acceleration #Multi-Resolution Generation #Staged Sampling #Super-Resolution

2026년 7월 2일

[논문리뷰] Morphing into Hybrid Attention Models

본 논문은 하이브리드 Attention 모델 구축 시 핵심적인 레이어 선택(Layer Selection) 과정에서의 비효율성과 비적정성을 해결하는 것을 목표로 합니다. 기존 연구들은 하이브리드 레이어 구성을 고정된 패턴이나 개별 레이어의 중요도를 독립적으로 평가하는 휴리스틱 방식에 의존했습니다 .

#Review #Hybrid Attention #Transformer-to-hybrid Conversion #Layer Selection #Joint Optimization #Large Language Models #Long-context Efficiency

2026년 7월 2일

[논문리뷰] Logit-Contribution Scoring Identifies Non-Literal Retrieval Heads

본 논문은 기존의 retrieval head 탐지 방식이 non-literal retrieval의 핵심 메커니즘을 포착하지 못하는 한계를 해결하기 위해 제안되었습니다.

#Review #Logit-Contribution Scoring #LOCOS #Non-literal Retrieval #Attention Heads #Mechanistic Interpretability #Transformer Circuits #OV Circuit

2026년 7월 2일

[논문리뷰] Learning to Move Before Learning to Do: Task-Agnostic pretraining for VLAs

본 논문은 현재 VLA 학습이 겪고 있는 데이터 부족 문제를 해결하기 위해, 대규모 Expert Demonstration 의존성을 탈피하는 새로운 사전 학습 프레임워크를 제안합니다. 기존의 VLA 모델은 고가의 인간 조작 데이터에 과도하게 의존하며, 이는 데이터 수집의 확장성을 저해하는 근본적인 병목 현상으로 작용합니다.

#Review #Vision-Language-Action Models #Task-Agnostic Pretraining #Embodied AI #Inverse Dynamics #Physical Grounding #Robotic Manipulation

2026년 7월 2일