최신 포스트

[CPython] SyntaxError 재초기화 시 메모리 누수 수정

SyntaxError 객체를 __init__으로 재초기화할 때 기존 속성의 참조가 해제되지 않아 발생하던 메모리 누수를 Py_XSETREF로 수정한 분석.

#CPython #SyntaxError #Memory Leak #Reference Counting #Bug Fix #C

2026년 3월 30일

[CPython 3.13] SyntaxError 재초기화 시 메모리 누수 수정 (backport)

SyntaxError __init__ 재호출 시 기존 속성의 참조가 누수되던 문제를 Py_XSETREF로 수정한 3.13 backport 분석.

#CPython #SyntaxError #Memory Leak #Backport #Bug Fix #C

2026년 3월 30일

[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용

SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.

#SGLang #CI #FlashInfer #MXFP8 #Quantization #Testing

2026년 3월 30일

[CPython] dict 접근 최적화: known hash를 활용한 중복 해시 계산 제거

CPython의 dict 자료구조에서 이미 알고 있는 hash 값을 활용하여 중복 해시 연산을 제거하는 JIT/인터프리터 최적화 분석.

#CPython #Performance #Dict #JIT #Optimization #C

2026년 3월 30일

[sglang] Qwen3.5 MoE 모델 로딩 및 Mamba 캐시 PP 모드 샤딩 수정

SGLang에서 Qwen3.5 MoE 모델의 Pipeline Parallelism 로딩 시 weight 필터링 누락과 Mamba 캐시 레이어 범위 계산 오류를 수정한 분석.

#SGLang #Qwen3.5 #MoE #Pipeline Parallelism #Mamba #Bug Fix

2026년 3월 30일

[vllm] DFlash - Block Diffusion 기반 Speculative Decoding

DFlash 알고리즘을 vLLM에 통합하여 GSM8k에서 acceptance length 6.54를 달성하는 고효율 추론 가속

#vllm #Performance

2026년 3월 30일

[Open WebUI] 공유 채팅 삭제 시 전체 행 대신 ID만 조회하여 메모리 절약

delete_shared_chats_by_user_id에서 Chat 전체를 로드하던 쿼리를 Chat.id만 프로젝션하도록 변경하여 JSON 데이터 로드 비용을 제거한 최적화.

#Open WebUI #Python #Performance #SQLAlchemy #Query Optimization

2026년 3월 30일

[Open WebUI] 매 인증 요청마다 실행되는 last_active 업데이트를 단일 UPDATE 쿼리로 최적화

SELECT + refresh + Pydantic 직렬화를 수행하던 last_active 업데이트를 단일 UPDATE 문으로 교체하여 매 요청의 DB 부하를 줄인 최적화 분석.

#Open WebUI #Python #Performance #SQLAlchemy #Database

2026년 3월 30일

[sglang] Dumper 디버그 유틸리티 리팩토링: 설정 구조 개선과 Non-intrusive 모드 도입

SGLang의 dumper.py를 upstream main에서 동기화하며 설정 클래스 구조 개선, CLI key=value 파싱 지원, non-intrusive 모드 등을 추가한 대규모 리팩토링 분석.

#SGLang #Debug #Refactoring #Python #LLM Inference

2026년 3월 30일

[SGLang] Mamba 캐시 누수 수정: adder 실패 시 pool index 회수

요청 추가 실패 시 할당된 mamba_pool_idx를 해제하지 않아 발생하는 메모리 누수를 수정한다

#SGLang #Mamba #Bug Fix #Memory Leak

2026년 3월 30일

[sglang] 미사용 BatchMultimodalOutput/DecodeReq 제거로 코드베이스 정리

SGLang에서 사용되지 않는 BatchMultimodalOutput과 BatchMultimodalDecodeReq 데이터클래스를 제거하여 81줄의 dead code를 정리한 클린업 분석.

#SGLang #Cleanup #Dead Code #Python #LLM Inference

2026년 3월 29일

[논문리뷰] Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Large Language Model (LLM) 기반의 Agent는 복잡한 태스크를 해결하기 위해 Domain-specific Skill에 대한 의존도가 높아지고 있습니다.

#Review #LLM Agents #Skill Evolution #Trajectory Analysis #Inductive Reasoning #Transferable Skills #Conflict-Free Consolidation

2026년 3월 29일

[논문리뷰] Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

AI 패러다임이 Text-based LLMs에서 Speech Language Models (SLMs)로 전환됨에 따라, 실시간의 자연스러운 Human-Computer Interaction을 지원하는 Full-duplex system 에 대한 수요가 증가하고 있습니다.

#Review #Full-duplex Speech #Data Pre-processing #Speaker Diarization #Overlap Separation #ASR Ensemble #Speech Language Models

2026년 3월 29일

[논문리뷰] ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

최근 Text-to-Video Model들은 단일 쇼트(single-shot) 비디오 생성에서 높은 성능을 보이지만, 영화나 TV와 같은 긴 서사적 스토리텔링(Long-form Narrative Storytelling)을 위해서는 Multi-shot Video Generation 이 필수적입니다.

#Review #Multi-Shot Video Generation #Interactive Storytelling #Causal Architecture #Distribution Matching Distillation #Self Forcing #Dual-Cache Memory #RoPE Discontinuity Indicator

2026년 3월 29일

[논문리뷰] RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Vision-Language Models (VLMs)는 다양한 도메인에서 인상적인 코드 생성 능력을 보여주었지만, 복잡한 멀티패널 시각화를 실제 데이터로부터 재현하는 능력 은 아직 충분히 평가되지 않았다.

2026년 3월 29일

[논문리뷰] PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

최근 autoregressive video diffusion models 는 상당한 발전을 이루었지만, 장시간 비디오 생성 시 발생하는 몇 가지 주요 제약 사항들에 직면해 있다.

#Review #Autoregressive Video Generation #KV Cache Management #Long Context Inference #Video Diffusion Models #Temporal Consistency #Spatiotemporal Compression #RoPE Adjustment #Dynamic Context Selection

2026년 3월 29일

[논문리뷰] Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Video World Models는 물리적인 세계를 시뮬레이션하는 데 막대한 잠재력을 보여주지만, 기존 Memory Mechanism들은 환경을 주로 Static Canvas로 간주하는 한계를 가지고 있다.

#Review #Video World Models #Hybrid Memory #Dynamic Retrieval Attention #HM-World Dataset #Spatiotemporal Consistency

2026년 3월 29일

[논문리뷰] Natural-Language Agent Harnesses

Agent의 성능은 점점 더 harness engineering에 의존하고 있지만, 기존의 harness 디자인은 컨트롤러 코드와 런타임 특정(runtime-specific) 관습에 파묻혀 있어, 이를 과학적 대상으로 전이(transfer), 비교(compare), 연구(study)하기 어렵다는 문제가 있습니다.

2026년 3월 29일

[논문리뷰] LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

Self-driving 시스템에서 Long-tail Scenarios 에 대한 Generalization 은 여전히 근본적인 도전 과제입니다.

2026년 3월 29일

[논문리뷰] Diffutron: A Masked Diffusion Language Model for Turkish Language

Autoregressive (AR) Transformers는 현재 Large Language Models (LLMs) 분야에서 지배적이지만, 텍스트를 토큰별로 순차적으로 생성하는 본질적인 특성으로 인해 Generation Speed와 고려할 수 있는 Context에 한계가 있다.

#Review #Masked Diffusion Language Models #Turkish NLP #Non-Autoregressive Generation #LoRA #Instruction Tuning #Morphologically Rich Languages #Parameter Efficiency

2026년 3월 29일