[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.#HuggingFace#Transformers#TensorParallelism#ContinuousBatching#LLM2026년 5월 18일댓글 수 로딩 중
[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.#HuggingFace#Transformers#Python#Optimization#Performance2026년 5월 4일댓글 수 로딩 중
[SGLang] Model Configuration 시스템: 모델 설정 관리SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.#sglang#Model Config#Configuration#HuggingFace2026년 4월 14일댓글 수 로딩 중
[llm-compressor] Transformers Tracing: 모델 그래프 추적과 부분 forwardtransformers/tracing 디렉토리의 debug.py가 HuggingFace 모델을 torch.fx로 추적해 서브그래프 분할을 가능하게 하는 구조 분석#llm-compressor#Tracing#HuggingFace#FX2026년 4월 13일댓글 수 로딩 중
[faster-qwen3-tts] 로컬 모델 경로를 HuggingFace Hub ID로 전환하여 배포 간소화Qwen3-TTS CUDA Graphs 프로젝트에서 하드코딩된 로컬 모델 경로를 HuggingFace Hub ID로 교체하고, config 파싱 로직을 제거하여 코드를 단순화한 사례를 분석합니다.#Qwen3-TTS#HuggingFace#Model Loading#Python#Refactoring2026년 2월 20일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델 캐싱 기능 RevertPyTorch CI에서 TIMM pretrained 모델을 공유 HF 캐시에 저장하는 기능을 도입했다가, 문제 발생으로 원복한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#Revert2026년 2월 16일댓글 수 로딩 중
[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.#Ray#Python#Compatibility#HuggingFace#LLM2026년 2월 11일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#GitHub Actions2026년 2월 9일댓글 수 로딩 중