최신 포스트

[논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

본 연구는 Multimodal Large Language Model(MLLM) 기반 게임 에이전트의 체계적인 평가를 가로막는 표준화된 인터페이스의 부재와 검증 방식의 한계를 극복하기 위해 수행되었습니다.

#Review #Multimodal Large Language Model #Game Agent #Benchmark #Standardized Evaluation #Computer-Use Agent #Semantic Action Parsing #Outcome-based Evaluation

2026년 4월 15일

[논문리뷰] From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

본 논문은 기존 RLVR의 추론 능력이 base model의 기존 출력 분포에 의해 근본적으로 제한되는 병목 현상을 해결하고자 한다. 기존의 standard RL은 특정 입력 $x$에 조건을 둔 $P(y|x)$ 최적화에 집중하며, 이는 탐색 공간의 한계와 분포 편향(distribution shift) 문제를 야기한다.

#Review #Large Language Models #Reinforcement Learning #Pre-train Space #Policy Reincarnation #Negative Sample Reinforcement #Reasoning Enhancement

2026년 4월 15일

[논문리뷰] Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

본 논문은 사전 학습된 피드포워드 3D 재구성 모델이 테스트 시점에 특정 장면의 기하학적 오류를 스스로 보정하지 못하는 경직된 문제를 해결합니다.

#Review #Test-Time Adaptation #Multi-View 3D Reconstruction #Self-Supervision #LoRA #Feature Consistency #Feed-Forward Models

2026년 4월 15일

[ollama] Ollama MLX Gemma4 성능 최적화: Fused Operations를 통한 효율성 증대

Ollama의 MLX 백엔드에서 Gemma4 모델의 성능을 fused operations로 최적화한 PR 분석.

#Ollama #MLX #Gemma4 #성능 최적화 #Fused Operations #Deep Learning #Go #Machine Learning

2026년 4월 15일

[sglang] SGLang, Diffusion 모델의 RL 기반 후처리 최적화를 위한 새로운 Rollout API 및 정밀도 개선

SGLang, Diffusion 모델 RL 후처리를 위한 Rollout API 도입 및 SP 환경 백패스, 정밀도 개선으로 성능 향상.

#SGLang #Diffusion Models #RL #Optimization #Performance #API

2026년 4월 15일

[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화

vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.

#vLLM #LLM #KV Cache #Quantization #Optimization #Triton #GPU Memory

2026년 4월 15일

[sglang] sglang, AMD MI35x 환경에서 GLM-5-MXFP4 모델의 성능 및 정확도 테스트 추가

sglang 레포지토리에서 AMD MI35x GPU 환경에 GLM-5-MXFP4 모델의 정확도 및 성능 테스트를 추가하고 기존 테스트를 정리하는 PR을 분석합니다.

#sglang #AMD #MI35x #GLM-5-MXFP4 #CI #테스트 자동화 #성능 최적화

2026년 4월 15일

[sglang] [AMD] Triton 커널 퓨전을 통한 Qwen3.5 MoE 라우팅 최적화 분석

4개의 커널 호출을 단일 Triton 커널로 통합하여 Qwen3.5 MoE 모델의 서빙 성능을 최대 4.16% 향상시킨 최적화 기법을 살펴봅니다.

#Triton #MoE #Qwen3.5 #Kernel-Fusion #SGLang #AMD

2026년 4월 15일

[SGLang] Hardware Backends: MLX, NPU, XPU 하드웨어 추상화

SGLang의 Hardware Backend를 분석한다. Apple MLX, Huawei Ascend NPU, Intel XPU 등 다양한 하드웨어의 추상화 레이어, CUDA 대비 차이점을 코드와 함께 비교한다.

#sglang #Hardware Backend #MLX #NPU #XPU #Abstraction

2026년 4월 15일

[SGLang] Reasoning & Code Completion Parser: 추론 및 코드 파서

SGLang의 Reasoning Parser와 Code Completion Parser를 분석한다. Chain-of-Thought 추론 출력 파싱, 코드 완성 포맷 처리, 대화 관리를 코드와 함께 살펴본다.

#sglang #Reasoning Parser #Code Completion #Conversation

2026년 4월 14일

[SGLang] Debug Utils: 텐서 비교, 스케줄 시뮬레이터

SGLang의 디버그 유틸리티를 분석한다. 텐서 값 비교기(Comparator), 스케줄 시뮬레이터, 토큰별 시각화 도구 등 개발/디버깅 인프라를 코드와 함께 살펴본다.

#sglang #Debug Utils #Tensor Comparator #Schedule Simulator

2026년 4월 14일

[SGLang] Observability: 추적, 메트릭, 프로파일링 인프라

SGLang의 Observability 인프라를 분석한다. OpenTelemetry 추적, Prometheus 메트릭, 함수 타이머, CPU 모니터링 등 관측 가능성 도구를 코드와 함께 살펴본다.

#sglang #Observability #Metrics #Tracing #Profiling

2026년 4월 14일

[SGLang] sgl-kernel: 커스텀 C++/CUDA 커널 라이브러리

SGLang의 sgl-kernel 라이브러리를 분석한다. 커스텀 C++/CUDA 커널의 구조, AllReduce/Attention/Quantization/Sampling 등 주요 커널 카테고리를 코드와 함께 살펴본다.

#sglang #sgl-kernel #CUDA Kernel #C++ Extension

2026년 4월 14일

[SGLang] Server Args: 300+ 서버 인자 완전 가이드

SGLang의 ServerArgs를 분석한다. 300+ 서버 설정 인자를 카테고리별로 정리하고, 핵심 설정의 기본값과 튜닝 가이드를 코드와 함께 제공한다.

#sglang #Server Args #Configuration #Tuning Guide

2026년 4월 14일

[SGLang] Model Configuration 시스템: 모델 설정 관리

SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.

#sglang #Model Config #Configuration #HuggingFace

2026년 4월 14일

[SGLang] Batch Overlap: 연산-통신 오버랩 최적화

SGLang의 Batch Overlap을 분석한다. GPU 연산과 통신을 중첩하여 유휴 시간을 줄이는 전략, Single/Dual 배치 오버랩 모드를 코드와 함께 살펴본다.

#sglang #Batch Overlap #Compute-Communication #Pipeline

2026년 4월 14일

[SGLang] Sparsity Algorithms: QUEST와 DeepSeek NSA 희소 패턴

SGLang의 Sparsity 알고리즘을 분석한다. QUEST 알고리즘과 DeepSeek NSA의 희소 어텐션 패턴, 코디네이터 구조, 백엔드 어댑터를 코드와 함께 살펴본다.

#sglang #Sparsity #QUEST #NSA #Sparse Pattern

2026년 4월 14일

[SGLang] Deep GEMM Wrapper: 최적화 행렬 곱 라이브러리

SGLang의 Deep GEMM Wrapper를 분석한다. GEMM 연산을 최적화하는 래퍼 설계, 하드웨어별 커널 선택, FP8/INT8 GEMM 지원을 코드와 함께 살펴본다.

#sglang #Deep GEMM #Matrix Multiplication #GEMM Optimization

2026년 4월 14일

[sglang] SGLang 성능 최적화: FP8 모델을 위한 Inductor 컴파일러 경로 개선

Inductor 컴파일러의 커널 퓨전 능력을 극대화하여 FP8 임베딩 성능을 24% 향상시킨 최적화 기법을 소개합니다.

#SGLang #PyTorch Inductor #FP8 #Kernel Fusion #LLM Optimization

2026년 4월 14일

[cpython] Python JIT 옵티마이저의 다중 캐시 버그 수정: `optimizer_generator` 개선 분석

Python JIT 옵티마이저가 다중 캐시를 올바르게 처리하도록 수정된 PR 분석.

#Python #JIT #Optimizer #Performance #Bug Fix #CPython

2026년 4월 14일