최신 포스트

[llm-compressor] Pipeline Registry: Modifier 목록을 보고 파이프라인 자동 선택

CalibrationPipeline 추상 클래스와 from_modifiers 디스패처가 basic/sequential/data_free/independent 중 어떤 파이프라인을 고를지 결정하는 로직 분석

#llm-compressor #Pipeline #Registry

2026년 4월 13일

[llm-compressor] Events: 배치 라이프사이클 훅과 에폭 계산 로직

EventType enum과 Event dataclass가 정의하는 배치/에폭/옵티마이저 훅, should_update 조건 검사, epoch 계산 속성 분석

#llm-compressor #Events #Core

2026년 4월 13일

[llm-compressor] State & ModelLayer: 압축 상태 저장소

State/Data/Hardware/ModifiedState dataclass가 어떤 정보를 보관하는지와 update() 메서드의 데이터 복사 정책 분석

#llm-compressor #State #Core

2026년 4월 13일

[llm-compressor] Lifecycle: Modifier 초기화-이벤트-종료 상태 머신

CompressionLifecycle 데이터클래스가 Recipe의 Modifier 리스트를 initialize/event/finalize 3단계로 어떻게 순회하는지와 이벤트 순서 검증 로직 분석

#llm-compressor #Lifecycle #Core

2026년 4월 13일

[llm-compressor] CompressionSession: 전역 싱글톤 세션과 Lifecycle 래퍼

llm-compressor의 CompressionSession 클래스와 active_session() 전역 디스패처가 어떻게 Lifecycle, State를 관리하는지 코드 분석

#llm-compressor #Session #Core #Lifecycle

2026년 4월 13일

[llm-compressor] Recipe Metadata: 직렬화 헬퍼와 모델 메타데이터 구조

Recipe YAML 직렬화/병합 헬퍼와 DatasetMetaData, ParamMetaData, LayerMetaData, ModelMetaData Pydantic 모델 분석

#llm-compressor #Recipe #Metadata

2026년 4월 13일

[llm-compressor] Recipe DSL: YAML로 Modifier를 조합하는 선언적 언어

llm-compressor의 Recipe 클래스가 YAML/JSON/Python 문자열을 어떻게 Modifier 리스트로 변환하는지, 스테이지/그룹/args 구조를 코드로 분석

#llm-compressor #Recipe #DSL #YAML

2026년 4월 13일

[llm-compressor] Args Dataclasses: 평평한 Kwargs를 세 개의 구조로 분리하기

ModelArguments, DatasetArguments, RecipeArguments 세 dataclass가 oneshot() 호출 인자를 어떻게 나눠 받는지와 HfArgumentParser 기반 파싱 구조 분석

#llm-compressor #Args #Configuration

2026년 4월 13일

[llm-compressor] Model-Free Entrypoint: 모델 정의 없이 체크포인트만으로 PTQ

llm-compressor의 model_free_ptq가 safetensors 샤드를 직접 열어 캘리브레이션 없이 양자화하는 구조를 코드 레벨에서 분석

#llm-compressor #Entrypoint #Model-Free #PTQ

2026년 4월 13일

[llm-compressor] Oneshot 진입점: 한 번의 호출로 끝나는 압축 파이프라인

llm-compressor의 최상위 API인 oneshot() 함수가 모델 로딩, 캘리브레이션, 레시피 적용, 저장까지 어떻게 한 번에 처리하는지 코드 레벨에서 분석

#llm-compressor #Entrypoint #Oneshot #PTQ

2026년 4월 13일

[llm-compressor] 프로젝트 전체 아키텍처 분석 - 개요 및 목차

llm-compressor의 전체 아키텍처를 11개 계층으로 분석하고, 45개 포스트와 8편 논문 구현을 정리한 시리즈의 개요 포스트

#llm-compressor #Architecture #Quantization #Pruning #PTQ

2026년 4월 13일

[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처

SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.

#sglang #Disaggregation #PD Separation #Prefill-Decode

2026년 4월 13일

[cpython] CPython JIT 최적화: 키워드 및 바운드 메서드 호출 성능 개선

CPython JIT 컴파일러가 키워드 인수와 바운드 메서드 호출을 더 효율적으로 처리하도록 최적화하는 방법을 설명합니다.

#Python #CPython #JIT #Optimization #Performance

2026년 4월 13일

[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배

vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대

#vLLM #CUDA #Kernel Optimization #H100 #Transformer

2026년 4월 13일

[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석

vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.

#vLLM #XPU #MXFP8 #Quantization #GEMM #Intel

2026년 4월 13일

[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석

Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.

#SGLang #Intel GPU #XPU #MoE #GPT-OSS #Deep Learning Optimization

2026년 4월 13일

[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터

SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.

#sglang #HPU #NPU #XPU #Hardware Communication

2026년 4월 13일

[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신

SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.

#sglang #Shared Memory #Broadcast #IPC #Low Latency

2026년 4월 13일

[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터

SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.

#sglang #Ray #Distributed Engine #Actor Pattern

2026년 4월 13일

[SGLang] Data Parallel Controller: 다중 인스턴스 조율

SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.

#sglang #Data Parallelism #Load Balancing #Multi-Instance

2026년 4월 13일