#HuggingFace

13개의 포스트

[transformers] Hugging Face Transformers: Apple Silicon(MPS) 환경의 메모리 누수 해결을 위한 MPS Graph Cache 최적화

Apple Silicon 환경에서 가변 길이 입력으로 인한 MPS Graph Cache 메모리 비대칭 증가 문제를 torch_empty_cache_steps를 통해 해결합니다.

#HuggingFace #Transformers #MPS #AppleSilicon #MemoryOptimization

2026년 7월 9일

[transformers] Hugging Face Transformers: logits_to_keep을 활용한 메모리 최적화

모델 내부에서 logits을 미리 슬라이싱하여 메모리 사용량을 줄이고 추론 처리량을 개선하는 최적화 기법을 소개합니다.

#HuggingFace #Transformers #LLM #Optimization #DeepLearning

2026년 6월 15일

[transformers] Hugging Face Transformers: 멀티프로세싱 풀 재사용을 통한 모듈식 변환 성능 최적화

멀티프로세싱 풀을 매번 생성하지 않고 재사용함으로써 모듈식 변환 속도를 약 50% 향상시킨 사례를 분석합니다.

#Python #Performance #Multiprocessing #HuggingFace #Optimization

2026년 6월 9일

[transformers] [Hugging Face] n-to-1 커널 퓨전과 파라미터 변환: KernelConfig API의 진화

Transformers 모델의 성능 극대화를 위한 모듈 퓨전 및 가중치 레이아웃 변환 자동화 기법 분석

#HuggingFace #Transformers #KernelFusion #PyTorch #Optimization

2026년 6월 9일

[transformers] Hugging Face Transformers: Slow Tokenizer 성능 회귀 문제 해결하기

PreTrainedTokenizer의 O(T*N*logN) 성능 저하 문제를 O(T)로 복구한 최적화 사례 분석

#HuggingFace #Transformers #Python #Optimization #Tokenizer

2026년 6월 3일

[transformers] Hugging Face Transformers: Continuous Batching에 Tensor Parallelism 도입하기

Continuous Batching 환경에서 Tensor Parallelism을 지원하여 대규모 언어 모델의 추론 성능을 극대화하는 최적화 기법 분석.

#HuggingFace #Transformers #TensorParallelism #ContinuousBatching #LLM

2026년 5월 18일

[transformers] Hugging Face Transformers: PreTrainedTokenizer의 성능 병목 해결기

convert_ids_to_tokens 호출 시 매번 반복되던 all_special_ids 연산을 캐싱하여 성능을 300배 이상 개선한 사례를 분석합니다.

#HuggingFace #Transformers #Python #Optimization #Performance

2026년 5월 4일

[SGLang] Model Configuration 시스템: 모델 설정 관리

SGLang의 Model Configuration 시스템을 분석한다. ModelConfig 데이터클래스, HuggingFace config 매핑, 런타임 설정 오버라이드를 코드와 함께 살펴본다.

#sglang #Model Config #Configuration #HuggingFace

2026년 4월 14일

[llm-compressor] Transformers Tracing: 모델 그래프 추적과 부분 forward

transformers/tracing 디렉토리의 debug.py가 HuggingFace 모델을 torch.fx로 추적해 서브그래프 분할을 가능하게 하는 구조 분석

#llm-compressor #Tracing #HuggingFace #FX

2026년 4월 13일

[faster-qwen3-tts] 로컬 모델 경로를 HuggingFace Hub ID로 전환하여 배포 간소화

Qwen3-TTS CUDA Graphs 프로젝트에서 하드코딩된 로컬 모델 경로를 HuggingFace Hub ID로 교체하고, config 파싱 로직을 제거하여 코드를 단순화한 사례를 분석합니다.

#Qwen3-TTS #HuggingFace #Model Loading #Python #Refactoring

2026년 2월 20일

[pytorch] CI: TIMM pretrained 모델 캐싱 기능 Revert

PyTorch CI에서 TIMM pretrained 모델을 공유 HF 캐시에 저장하는 기능을 도입했다가, 문제 발생으로 원복한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #Revert

2026년 2월 16일

[Ray Data/LLM] 폐기된 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고 AutoConfig 실패를 비치명적으로 처리

transformers 5.0+ 호환성을 위해 TRANSFORMERS_CACHE를 HF_HUB_CACHE로 교체하고, HuggingFace 설정 로드 실패 시 텔레메트리 fallback을 적용한 분석.

#Ray #Python #Compatibility #HuggingFace #LLM

2026년 2월 11일

[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선

PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #GitHub Actions

2026년 2월 9일