최신 포스트

[CPython] JIT stencil에서 frame pointer 보존 검증 추가

CPython JIT 컴파일러가 생성하는 stencil 코드에서 frame pointer가 올바르게 보존되는지 검증하는 validation 로직 분석.

#CPython #JIT #Frame Pointer #Debugging #Profiling #AArch64 #x86

2026년 3월 27일

[CPython] AArch64 JIT stencil에서 frame pointer 예약 활성화

AArch64 Linux 환경의 CPython JIT에서 frame pointer를 reserved로 설정하여 네이티브 프로파일러 호환성을 확보한 분석.

#CPython #JIT #AArch64 #Frame Pointer #Profiling #Linux

2026년 3월 27일

[triton] AMD GFX9 Async Copy에서 Shared Memory 순서 버그 수정

스레드가 contiguous 차원을 정확히 커버할 때 shared memory 순서가 잘못 설정되는 문제를 수정하여 데이터 정합성을 보장한 사례를 분석합니다.

#Triton #AMD #GPU #SharedMemory #AsyncCopy

2026년 3월 27일

[sglang] Diffusion 모델용 Fused QKNorm+RoPE CUDA 커널 추가

SGLang에 Diffusion 모델의 QKNorm과 RoPE를 하나의 CUDA 커널로 융합하여 메모리 접근을 절반으로 줄이는 warp-level 최적화 커널 분석.

#SGLang #CUDA #Diffusion #RoPE #RMSNorm #Kernel Fusion #GPU Optimization

2026년 3월 27일

[sglang] QKNorm Across Heads CUDA 커널 최적화: Q/K 분리로 레지스터 압력 해소

SGLang의 qknorm_across_heads CUDA 커널에서 Q와 K를 하나의 블록에서 동시 처리하던 방식을 2D grid로 분리하여 레지스터 사용량과 shared memory를 절반으로 줄인 최적화 분석.

#SGLang #CUDA #Kernel Optimization #RMSNorm #Diffusion #GPU

2026년 3월 27일

[llm-compressor] iMatrix Weighted MSE Observer - 중요도 행렬 기반 양자화

Importance Matrix(iMatrix)를 활용한 가중 MSE observer로 중요 가중치의 양자화 정밀도를 우선 보존

#llm-compressor #Performance

2026년 3월 27일

[CPython 3.13] pickle fast_save_enter() 테스트 정리 (backport)

pickle 모듈의 fast_save 테스트에서 불필요한 dict wrapper와 seed 매개변수를 제거한 3.13 backport 분석.

#CPython #pickle #Testing #Backport #Refactoring #Python

2026년 3월 27일

[Ray Data] PyArrow 스키마 해싱 방식 개선으로 대규모 데이터셋 성능 향상

Ray Data의 RefBundle에서 PyArrow 스키마의 전체 동등성 비교와 해싱을 객체 ID 기반으로 변경하고, 대규모 입력 파일 목록이 DatasetStats에 전파되는 것을 방지한 PR을 분석합니다.

#Ray #Ray Data #Performance #PyArrow #Hashing #Schema

2026년 3월 27일

[triton] MMAv2 dot에 Prefetch 재활성화 - 루프 프롤로그 분리 방식으로 재설계

Triton의 MMAv2 dot 연산에 대한 prefetch 최적화를 루프 프롤로그 분리 방식으로 재설계하여 재활성화한 PR을 분석합니다.

#Triton #NVIDIA #Prefetch #MMAv2 #Pipeline

2026년 3월 27일

[Ray Data] _map_task 공통 인자 캐싱으로 직렬화 오버헤드 절감

map_transformer와 data_context를 ObjectRef로 캐싱하여 태스크 제출 가속

#Ray #Serialization #Object Store #Performance

2026년 3월 27일

[CPython] pickle fast_save_enter() 테스트 정리 및 불필요한 wrapper 제거

pickle 모듈의 fast_save 관련 테스트에서 불필요한 dict wrapper를 제거하고 deep_nested_struct의 seed 매개변수를 제거하여 테스트를 단순화한 분석.

#CPython #pickle #Testing #Refactoring #Python

2026년 3월 26일

[sglang] flush_cache 단순화: 동시 요청 거부와 클라이언트 재시도 제거

SGLang의 flush_cache를 Deque 기반 다중 요청 큐에서 Optional 단일 요청으로 단순화하고, 서버 측 timeout과 명확한 에러 메시지를 도입한 리팩토링 분석.

#SGLang #Cache Management #API Design #Simplification #Concurrency

2026년 3월 26일

[sglang] CI 버그 수정: /rerun-ut 동시 실행 시 중복 워크플로우 URL 문제 해결

SGLang CI에서 /rerun-ut 커맨드를 동시에 여러 개 실행할 때 잘못된 워크플로우 URL이 게시되는 버그를 run-name에 test_command를 포함시켜 수정한 분석.

#SGLang #CI #GitHub Actions #Bug Fix #Workflow

2026년 3월 26일

[논문리뷰] Voxtral TTS

Natural하고 Expressive한 Text-to-Speech (TTS)는 유연한 Human-Computer Interaction의 중요한 요소이며, 가상 비서, 오디오북, 접근성 도구 등 다양한 Application에 활용됩니다.

#Review #Text-to-Speech #Zero-shot Voice Cloning #Hybrid Architecture #Speech Codec #Flow-Matching #Direct Preference Optimization #Finite Scalar Quantization #Multilingual TTS

2026년 3월 26일

[논문리뷰] Vega: Learning to Drive with Natural Language Instructions

기존 자율주행 시스템은 주로 Perception, Prediction, Planning의 모듈형 파이프라인을 따르며, 이는 고비용의 3D annotation에 크게 의존하여 실제 적용에 한계가 있습니다.

2026년 3월 26일

[논문리뷰] SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

기존 Coding Agent Benchmark 들은 압도적으로 Single-shot Solutions 을 Complete Specification에 대해 평가하고 있으며, 이는 Agent가 현재 Specification 에 대한 Correct Code 를 생성할 수 있는지 여부만을 측정한다.

#Review #SlopCodeBench #Coding Agents #Iterative Development #Code Quality #Structural Erosion #Verbosity #Benchmarking #Long-Horizon Tasks

2026년 3월 26일

[논문리뷰] S2D2: Fast Decoding for Diffusion LLMs via Training-Free Self-Speculation

최근 언어 모델링 분야에서 큰 발전을 이끈 Autoregressive (AR) 모델들은 엄격한 좌-우향 생성 방식 때문에 디코딩 유연성과 추론 병렬성에서 한계를 가진다.

#Review #Diffusion LLMs #Self-Speculation #Training-Free #Block-Diffusion #Fast Decoding #Rejection Sampling #Routing Policies

2026년 3월 26일

[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple Fixes

Large Language Model (LLM)의 Post-training에 있어 On-policy Distillation (OPD)은 student-generated rollouts에 대한 teacher feedback을 활용하기 때문에 매력적이다.

#Review #On-policy Distillation #LLM Post-training #Sampled-token OPD #Variance Reduction #Local Support Matching #Truncated Reverse-KL #Top-p Rollout Sampling #Special Token Masking

2026년 3월 26일

[논문리뷰] Representation Alignment for Just Image Transformers is not Easier than You Think

Representation Alignment (REPA)는 Latent Space Diffusion Transformer의 학습을 가속화하는 효과적인 방법으로 제시되었으나, Just Image Transformers (JiT)와 같은 Pixel-space Diffusion 모델에 이를 적용할 경우 오히려 성능 저하를 야기합니다.

#Review #Representation Alignment #Pixel-space Diffusion #Just Image Transformers #Feature Hacking #Masked Transformer Adapter #Diffusion Models #Image Generation

2026년 3월 26일

[논문리뷰] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models

Real-world Degradation 상황에서의 Image Restoration은 자율 주행(Autonomous Driving) 및 객체 탐지(Object Detection)와 같은 Downstream Task에 필수적이다.

#Review #Image Restoration #Real-World Degradation #Large-Scale Image Editing Models #Diffusion Models #Data Generation #RealIR-Bench #Zero-shot Generalization #Transfer Learning

2026년 3월 26일