최신 포스트

[논문리뷰] Geo-Align: Video Generation Alignment via Metric Geometry Reward

본 연구는 기존 비디오 생성 모델이 텍스트 프롬프트와의 의미적 정렬(Semantic Alignment)을 유지하는 데 있어 발생하는 낮은 일관성 문제를 해결하고자 합니다.

#Review #Video Generation #Alignment #Metric Geometry #Reward Model #Reinforcement Learning #Diffusion Models

2026년 5월 24일

[논문리뷰] GenRecon: Bridging Generative Priors for Multi-View 3D Scene Reconstruction

본 연구는 고전적인 Multi-view Reconstruction 기법이 복잡한 조명 환경이나 희소한 시점(Sparse view) 조건에서 구조적 붕괴를 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #3D Scene Reconstruction #Generative Priors #Multi-View Stereo #Diffusion Models #Neural Rendering #Latent Space

2026년 5월 24일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills

본 논문은 에이전트가 방대한 원시 경험 데이터로부터 효과적으로 기술을 습득하지 못하는 비효율성 문제를 해결하기 위해 Skill Consumption 프레임워크를 제안한다. 기존 방식은 데이터의 노이즈와 구조적 미흡함으로 인해 기술 추출의 정밀도가 낮다는 한계가 있다.

#Review #Agent Skills #Skill Consumption #Model-Generated Skills #Autoregressive #Skill Acquisition

2026년 5월 24일

[논문리뷰] ETCHR: Editing To Clarify and Harness Reasoning

ETCHR은 LLM의 CoT 생성 과정에 존재하는 논리적 결함과 불필요한 노이즈가 최종 성능을 저하시키는 문제를 해결하기 위해 고안되었습니다. 기존 LLM은 긴 Reasoning Path를 생성할 때 고수준의 논리적 일관성을 유지하는 데 한계를 보이며, 이는 결과적으로 정답률 감소로 이어집니다.

#Review #Chain-of-Thought #Reasoning #Model Editing #Inference Optimization #LLM #Knowledge Distillation #Interpretability

2026년 5월 24일

[sglang] [VLM 성능 최적화] Qwen-VL의 자잘한 H2D 오버헤드 줄이기: 단일 대형 전송으로의 전환

Qwen-VL 모델에서 발생하는 빈번한 소규모 Host-to-Device(H2D) 전송을 통합하고, 불필요한 CPU 동기화를 제거하여 멀티모달 추론 성능을 개선한 사례를 분석합니다.

#VLM #Qwen-VL #CUDA #Performance-Optimization #PyTorch #SGLang

2026년 5월 24일

[sglang] SGLang VLM 최적화: CUDA IPC Staging 오버헤드 제거를 통한 성능 향상

VLM 입력 처리 시 불필요한 CUDA IPC 스테이징을 제거하여 TTFT 및 E2E 지연 시간을 개선한 최적화 사례입니다.

#SGLang #VLM #CUDA #Optimization #Performance

2026년 5월 24일

[vllm] vLLM DeepSeek V4 ROCm MTP 지원: 하드웨어 최적화와 추론 성능 향상

DeepSeek V4 모델의 ROCm MTP 지원을 통해 추론 성능을 크게 향상시킨 vLLM PR 분석.

#vLLM #ROCm #DeepSeekV4 #MTP #SpeculativeDecoding #Triton #FP8 #Optimization

2026년 5월 24일

[triton] Triton Reduce 커널 성능 최적화: Subtiling과 RowIdxs 도입

Triton Reduce 커널의 성능을 향상시키기 위해 subtiling과 rowidxs 기법을 도입한 코드 변경 분석.

#Triton #Performance Optimization #CUDA #Deep Learning #Kernel Tuning

2026년 5월 24일

[cpython] CPython의 PySequence_GetSlice 성능 개선: 불필요한 참조 카운트 연산 제거

CPython의 PySequence_GetSlice 함수에서 불필요한 참조 카운트 증가/감소 연산을 제거하여 성능을 개선했습니다.

#Python #CPython #Performance #Optimization #C API

2026년 5월 23일

[sglang] sglang의 torch.compile 활용: Advanced Indexing Gather 최적화로 LLM 추론 가속화

sglang에서 torch.compile을 사용하여 여러 Tensor gather 연산을 하나로 묶어 GPU 커널 오버헤드를 줄인 최적화 분석.

#PyTorch #torch.compile #GPU Optimization #LLM Inference #Kernel Fusion #sglang

2026년 5월 23일

[vllm] vLLM XPU MOE 성능 최적화: 호스트 오버헤드 감소를 위한 객체 지향적 접근

vLLM의 XPU MOE 레이어에서 매 추론마다 반복되던 커널 호출 설정을 객체화하여 호스트 오버헤드를 획기적으로 줄인 최적화 사례를 분석합니다.

#vLLM #XPU #MOE #Performance #Optimization

2026년 5월 23일

[onnxruntime] RISC-V 벡터(RVV) 최적화: ONNX Runtime LLM 추론 성능 극대화

RISC-V 벡터 확장을 활용하여 LLM 연산자(GEMM, LayerNorm, RoPE)의 성능을 최대 191배 향상시킨 최적화 사례를 분석합니다.

#RISC-V #RVV #ONNX Runtime #LLM #Optimization

2026년 5월 23일

[vllm] vLLM 기술 딥다이브: CUTLASS를 활용한 NVFP4 Linear 커널의 Batch Invariance 최적화

vLLM에서 NVFP4 양자화 연산의 배치 크기 독립적 결과(Batch Invariance)를 보장하고 성능을 극대화한 CUTLASS 커널 개선 사례를 분석합니다.

#vLLM #CUTLASS #NVFP4 #CUDA #Optimization #Blackwell

2026년 5월 23일

[ultralytics] Ultralytics 코드베이스 경량화: SciPy 의존성 감소 및 NumPy 기반 최적화

SciPy 의존성을 줄이고 NumPy를 활용하여 Ultralytics 코드의 성능과 이식성을 개선한 PR 분석

#Python #NumPy #SciPy #Optimization #Ultralytics #Machine Learning

2026년 5월 22일

[onnxruntime] ONNX Runtime CPU ScatterElements 커널의 멀티스레딩 최적화 분석

CPU ScatterElements 연산을 ThreadPool을 활용해 병렬화하여 129배의 성능 향상을 달성한 사례를 분석합니다.

#ONNXRuntime #C++#Optimization #MultiThreading #Performance

2026년 5월 22일

[cpython] Python JIT 최적화: 트레이스 버퍼 오버헤드 관리 개선

Python JIT 컴파일러의 트레이스 버퍼 관리 방식을 개선하여 안정성을 높이고 성능을 소폭 향상시킨 PR을 분석합니다.

#Python #JIT #Optimization #CPython #Performance

2026년 5월 21일

[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속

CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.

#ONNX Runtime #LLM #Quantization #SIMD #Performance

2026년 5월 21일

[flashinfer] FlashInfer의 DeepSeek V4 Sparse MLA 최적화 분석

DeepSeek V4의 Sparse MLA를 지원하기 위한 커널 최적화 및 가변 Top-K 처리 로직 개선 사항을 분석합니다.

#FlashInfer #DeepSeek #CUDA #LLM #Optimization

2026년 5월 21일

[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.

#Review #Proactive Personal Assistant Agents #Long-Horizon Workflows #Hidden Intents #Benchmark #Task Completion #Agentic Workflow

2026년 5월 21일