[vllm] AMD RDNA3 (gfx1100)를 위한 vLLM의 W4A16 GPTQ 커널 최적화 심층 분석AMD RDNA3 GPU에서 bf16 모델의 W4A16 추론 성능을 획기적으로 개선한 vLLM PR 분석.#vLLM#ROCm#RDNA3#GPTQ#W4A16#HIP#Kernel Optimization#bf16#fp16#GPU Programming2026년 5월 29일댓글 수 로딩 중
[llm-compressor] GPTQ: 2차 정보 기반 후훈련 양자화 구현GPTQ 논문의 Hessian 기반 양자화가 llm-compressor에 어떻게 구현되어 있는지, block_size/dampening_frac/actorder 파라미터와 sequential epoch 종료 시 quantize_weight 호출 구조 분석#llm-compressor#GPTQ#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[논문리뷰] Performance Trade-offs of Optimizing Small Language Models for E-Commerce본 논문은 대규모 상용 LLM의 높은 비용과 리소스 제약 문제를 해결하기 위해, 소규모 오픈-웨이트 모델이 특정 도메인 작업에서 효율적인 대안이 될 수 있는지 검증하는 것을 목표로 합니다.#Review#Small Language Models#E-commerce#Intent Recognition#Fine-tuning#QLoRA#Quantization#GPTQ#GGUF#Hardware-aware Optimization2025년 10월 31일댓글 수 로딩 중