[llm-compressor] Recipe Metadata: 직렬화 헬퍼와 모델 메타데이터 구조Recipe YAML 직렬화/병합 헬퍼와 DatasetMetaData, ParamMetaData, LayerMetaData, ModelMetaData Pydantic 모델 분석#llm-compressor#Recipe#Metadata2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Recipe DSL: YAML로 Modifier를 조합하는 선언적 언어llm-compressor의 Recipe 클래스가 YAML/JSON/Python 문자열을 어떻게 Modifier 리스트로 변환하는지, 스테이지/그룹/args 구조를 코드로 분석#llm-compressor#Recipe#DSL#YAML2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Args Dataclasses: 평평한 Kwargs를 세 개의 구조로 분리하기ModelArguments, DatasetArguments, RecipeArguments 세 dataclass가 oneshot() 호출 인자를 어떻게 나눠 받는지와 HfArgumentParser 기반 파싱 구조 분석#llm-compressor#Args#Configuration2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Model-Free Entrypoint: 모델 정의 없이 체크포인트만으로 PTQllm-compressor의 model_free_ptq가 safetensors 샤드를 직접 열어 캘리브레이션 없이 양자화하는 구조를 코드 레벨에서 분석#llm-compressor#Entrypoint#Model-Free#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Oneshot 진입점: 한 번의 호출로 끝나는 압축 파이프라인llm-compressor의 최상위 API인 oneshot() 함수가 모델 로딩, 캘리브레이션, 레시피 적용, 저장까지 어떻게 한 번에 처리하는지 코드 레벨에서 분석#llm-compressor#Entrypoint#Oneshot#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] 프로젝트 전체 아키텍처 분석 - 개요 및 목차llm-compressor의 전체 아키텍처를 11개 계층으로 분석하고, 45개 포스트와 8편 논문 구현을 정리한 시리즈의 개요 포스트#llm-compressor#Architecture#Quantization#Pruning#PTQ2026년 4월 13일댓글 수 로딩 중
[SGLang] Prefill-Decode Disaggregation 개요: PD 분리 아키텍처SGLang의 Prefill-Decode Disaggregation을 분석한다. Prefill과 Decode를 별도 서버로 분리하는 아키텍처, 통합 서빙 대비 3.8x Prefill + 4.8x Decode 처리량 향상의 원리를 코드와 함께 살펴본다.#sglang#Disaggregation#PD Separation#Prefill-Decode2026년 4월 13일댓글 수 로딩 중
[cpython] CPython JIT 최적화: 키워드 및 바운드 메서드 호출 성능 개선CPython JIT 컴파일러가 키워드 인수와 바운드 메서드 호출을 더 효율적으로 처리하도록 최적화하는 방법을 설명합니다.#Python#CPython#JIT#Optimization#Performance2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM, H100에서의 QKNorm+RoPE 커널 최적화: 더 나은 성능을 위한 동적 워크로드 분배vLLM의 QKNorm+RoPE 융합 커널 성능 개선: 동적 워크로드 분배로 H100에서의 효율성 증대#vLLM#CUDA#Kernel Optimization#H100#Transformer2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.#vLLM#XPU#MXFP8#Quantization#GEMM#Intel2026년 4월 13일댓글 수 로딩 중
[sglang] Intel GPU 가속을 위한 SGLang MoE 커널 최적화: GPT-OSS bf16 지원 분석Intel XPU 환경에서 GPT-OSS 모델의 MoE 연산 효율을 극대화하기 위한 fused_experts 커널 파라미터 최적화 기법을 살펴봅니다.#SGLang#Intel GPU#XPU#MoE#GPT-OSS#Deep Learning Optimization2026년 4월 13일댓글 수 로딩 중
[SGLang] 하드웨어별 통신: HPU, NPU, XPU 커뮤니케이터SGLang의 하드웨어별 통신 구현을 분석한다. Intel Gaudi(HPU), Huawei Ascend(NPU), Intel XPU 각각의 집합 통신 구현과 NCCL 대비 차이를 코드와 함께 비교한다.#sglang#HPU#NPU#XPU#Hardware Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Shared Memory Broadcast: 프로세스 간 고속 통신SGLang의 Shared Memory Broadcast를 분석한다. 공유 메모리를 활용한 프로세스 간 저지연 데이터 전달, ZMQ 대비 장점을 코드와 함께 살펴본다.#sglang#Shared Memory#Broadcast#IPC#Low Latency2026년 4월 13일댓글 수 로딩 중
[SGLang] Ray 통합: 분산 엔진과 스케줄러 액터SGLang의 Ray 통합을 분석한다. Ray Actor 기반 분산 엔진, 스케줄러 액터, 멀티노드 배포 전략을 코드와 함께 살펴본다.#sglang#Ray#Distributed Engine#Actor Pattern2026년 4월 13일댓글 수 로딩 중
[SGLang] Data Parallel Controller: 다중 인스턴스 조율SGLang의 Data Parallel Controller를 분석한다. 여러 추론 인스턴스 간 요청 분배, 로드 밸런싱, 상태 동기화를 코드와 함께 살펴본다.#sglang#Data Parallelism#Load Balancing#Multi-Instance2026년 4월 13일댓글 수 로딩 중
[SGLang] NCCL & MSCCL++: 집합 통신 라이브러리 통합SGLang의 NCCL과 MSCCL++ 통합을 분석한다. NVIDIA NCCL의 래퍼 구현, Microsoft MSCCL++의 추가 최적화, 라이브러리 선택 전략을 코드와 함께 살펴본다.#sglang#NCCL#MSCCL++#Collective Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Custom All-Reduce: NCCL 너머의 최적화된 집합 통신SGLang의 Custom All-Reduce를 분석한다. NCCL 대비 낮은 지연시간을 달성하는 커스텀 구현, 공유 메모리 기반 통신, 소규모 텐서 최적화를 코드와 함께 살펴본다.#sglang#Custom AllReduce#Low Latency#Shared Memory2026년 4월 13일댓글 수 로딩 중
[SGLang] 통신 연산: AllReduce, Broadcast, AllGather 구현SGLang의 분산 통신 연산을 분석한다. AllReduce, Broadcast, AllGather 등 집합 통신의 구현, 커스텀 올리듀스와의 연동을 코드와 함께 살펴본다.#sglang#AllReduce#Broadcast#Collective Communication2026년 4월 13일댓글 수 로딩 중
[SGLang] Parallel State: TP/PP/DP/EP 병렬화 상태 관리SGLang의 Parallel State를 분석한다. Tensor/Pipeline/Data/Expert 4종 병렬화의 프로세스 그룹 관리, 초기화 순서, 그룹 간 관계를 코드와 함께 살펴본다.#sglang#Parallel State#Process Group#TP PP DP EP2026년 4월 13일댓글 수 로딩 중
[SGLang] Reasoner Grammar: 추론 체인 제약 생성SGLang의 Reasoner Grammar를 분석한다. Chain-of-Thought 추론 과정에서 구조화된 출력을 제약하는 방식, 추론 단계와 응답 단계의 분리를 코드와 함께 살펴본다.#sglang#Reasoner Grammar#Chain-of-Thought#Reasoning Constraint2026년 4월 13일댓글 수 로딩 중