[onnxruntime] ONNX Runtime의 CPU GQA 최적화: Flash Attention과 Flash Decoding 도입CPU 환경에서 INT8/INT4 양자화된 KV 캐시를 위한 Flash Attention 기반의 타일링 및 Flash Decoding 구현으로 성능을 극대화합니다.#ONNX Runtime#LLM#Flash Attention#CPU Optimization#Quantization2026년 5월 29일댓글 수 로딩 중
[vllm] [vLLM] W4A16 양자화 모델의 호환성 문제 해결: Triton 커널을 활용한 CUDA Fallback 구현Marlin 커널의 정렬 제약으로 인해 실행 불가능했던 W4A16 모델들을 Triton 커널 fallback을 통해 CUDA 환경에서도 지원하도록 개선했습니다.#vLLM#CUDA#Triton#Quantization#LLM Inference#W4A162026년 5월 27일댓글 수 로딩 중
[논문리뷰] OSP-Next: Efficient High-Quality Video Generation with Sparse Sequence Parallelism, HiF8 Quantization, and Reinforcement Learning본 논문은 기존 Diffusion Transformers(DiTs) 기반 비디오 생성 모델이 가진 2차 복잡도의 연산 비용 문제를 해결하고, 고해상도 비디오 생성 효율을 높이는 것을 목표로 한다.#Review#Video Generation#Diffusion Transformers#Sparse Attention#Sequence Parallelism#Quantization#Reinforcement Learning2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Clark Hash: Stateless Sparse Johnson-Lindenstrauss Quantization for Neural Embeddings본 논문은 대규모 신경망 임베딩(neural embeddings)을 저장할 때 발생하는 과도한 메모리 및 스토리지 비용 문제를 해결하기 위해 Clark Hash를 제안합니다.#Review#Neural Embeddings#Johnson-Lindenstrauss#Quantization#Sparse Projection#Stateless Codec#Dimensionality Reduction2026년 5월 27일댓글 수 로딩 중
[onnxruntime] ONNX Runtime CPU GQA 최적화: INT8/INT4 양자화 KV 캐시와 SIMD 가속CPU 환경에서 LLM 추론 성능을 극대화하기 위해 INT8/INT4 양자화 KV 캐시와 AVX512/NEON SIMD 커널을 도입한 최적화 사례를 분석합니다.#ONNX Runtime#LLM#Quantization#SIMD#Performance2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Measuring Maximum Activations in Open Large Language Models본 논문은 최신 오픈 LLM 생태계에서 Activation의 동적 범위(Dynamic Range)가 단순히 파라미터 수에 비례한다는 기존의 통념을 재검토하고, 모델별 Maximum Activation Magnitude(MM)를 체계적으로 측정하여 배포 시의 위험을 파악하고자 합니다.#Review#Large Language Models#Activation Range#Quantization#Maximum Activation#LLM Inference#Residual Stream#Model Scaling2026년 5월 18일댓글 수 로딩 중
[vllm] vLLM XPU 가속을 위한 MXFP4 W4A4 GEMM 커널 도입 분석vLLM의 XPU 플랫폼 지원 확대를 위해 MXFP4 양자화 형식을 지원하는 전용 GEMM 커널 추가 및 최적화 과정을 살펴봅니다.#vLLM#XPU#MXFP4#Quantization#GEMM#Performance2026년 5월 13일댓글 수 로딩 중
[vllm] vLLM DeepSeek v4 Fused Indexer Q 양자화 커널 최적화: CuteDSL을 활용한 성능 향상vLLM의 DeepSeek v4 Indexer Q 커널을 CuteDSL로 재작성하여 256비트 로드를 활용, 성능을 대폭 개선합니다.#vLLM#DeepSeekV4#CUDA#CuteDSL#KernelOptimization#GPUPerformance#MXFP4#Quantization2026년 5월 9일댓글 수 로딩 중
[flashinfer] FlashInfer의 Per-token NVFP4 Quantization 커널 최적화 분석FlashInfer의 NVFP4 양자화 커널 성능 개선: 블록 사이즈 최적화 및 Fast Math 제어 옵션 도입#FlashInfer#CUDA#Quantization#LLM#Performance2026년 5월 8일댓글 수 로딩 중
[sglang] DeepSeek-V4를 위한 MXFP4 Marlin MoE 커널 최적화 및 JIT 통합 분석DeepSeek-V4의 MXFP4 양자화 추론을 위해 Marlin MoE 커널을 JIT 경로로 포팅하고 성능을 최적화한 과정을 분석합니다.#LLM#Quantization#CUDA#DeepSeek-V4#SGLang#Marlin2026년 5월 7일댓글 수 로딩 중
[vllm] vLLM에 Humming MXFP4 MoE 백엔드 통합: 성능 최적화와 양자화의 만남vLLM에 Humming MXFP4 MoE 백엔드를 추가하여 MoE 모델의 추론 성능을 크게 향상시켰습니다.#vLLM#Humming#MoE#Quantization#Performance Optimization#DeepSeek-V4#MXFP42026년 5월 3일댓글 수 로딩 중
[sglang] SGLang NPU 성능 최적화: INT8 TP 통신 압축 도입NPU 환경에서 Qwen3 모델의 TP 통신을 INT8로 압축하여 프리필 성능을 약 5% 향상시킨 최적화 기법을 분석합니다.#SGLang#NPU#LLM#Optimization#Quantization2026년 5월 2일댓글 수 로딩 중
[flashinfer] FlashInfer의 DiT 최적화: SageAttention과 Int8/FP8 혼합 정밀도 커널 도입 분석FlashInfer에 DiT 모델 최적화를 위한 SageAttention 스케일링 팩터 지원 및 Int8/FP8 혼합 정밀도 커널이 추가되었습니다.#FlashInfer#CUDA#DiT#SageAttention#Quantization#DeepLearning2026년 5월 1일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[vllm] vLLM에 고성능 JIT 양자화 커널 'Humming' 도입하기vLLM에 유연한 JIT 양자화 커널 라이브러리인 Humming을 통합하여 다양한 양자화 타입 지원 및 추론 성능을 최적화하는 방법을 소개합니다.#vLLM#Quantization#Humming#LLM#Inference#Optimization2026년 4월 24일댓글 수 로딩 중
[vllm] vLLM, MXFP4 양자화 MoE 모델을 위한 CUTLASS 기반 SM100 커널 추가로 성능 향상vLLM이 MXFP4 양자화 MoE 모델 추론을 위한 새로운 CUTLASS 커널을 SM100에 추가하여 성능을 개선했습니다.#vLLM#MXFP4#MoE#Quantization#CUTLASS#Performance Optimization#SM1002026년 4월 18일댓글 수 로딩 중
[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.#vLLM#LLM#KV Cache#Quantization#Optimization#Triton#GPU Memory2026년 4월 15일댓글 수 로딩 중
[llm-compressor] SpinQuant: 학습된 회전 행렬 기반 양자화SpinQuant 논문의 4가지 회전(R1/R2/R3/R4)과 Cayley SGD 기반 학습 방법, llm-compressor의 mappings/norm_mappings 구현 분석#llm-compressor#SpinQuant#Quantization#Rotation2026년 4월 13일댓글 수 로딩 중
[llm-compressor] QuIP: 랜덤 직교 변환 기반 2비트 양자화QuIP 논문의 incoherence processing 아이디어와 llm-compressor에서 랜덤 아다마르/직교 행렬로 2비트 양자화를 가능하게 만드는 구현 분석#llm-compressor#QuIP#Quantization#2bit2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Logarithmic Equalization: 로그 스케일 채널 균등화LogEqualizationModifier가 채널 간 가중치 분포 편차를 로그 스케일로 균등화해 양자화 친화적 분포를 만드는 원리와 구현 분석#llm-compressor#LogEqualization#Quantization2026년 4월 13일댓글 수 로딩 중
[llm-compressor] AutoRound: 부호 경사 하강법으로 라운딩 최적화AutoRound 논문의 SignSGD 기반 rounding 최적화가 llm-compressor에서 어떻게 구현되는지, nsamples/iters/seqlen 파라미터 분석#llm-compressor#AutoRound#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] SmoothQuant: 활성화→가중치 양자화 난이도 이동SmoothQuant 논문의 activation smoothing 기법이 llm-compressor에서 어떻게 구현되어 있고, per-channel scale 결정과 RMSNorm 흡수 방식 분석#llm-compressor#SmoothQuant#Quantization#W8A82026년 4월 13일댓글 수 로딩 중
[llm-compressor] AWQ: 활성화 인식 가중치 양자화 구현AWQ 논문의 salient weight 스케일링 아이디어가 llm-compressor에서 mappings와 dynamic_mappings를 통해 어떻게 구현되는지 분석#llm-compressor#AWQ#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] GPTQ: 2차 정보 기반 후훈련 양자화 구현GPTQ 논문의 Hessian 기반 양자화가 llm-compressor에 어떻게 구현되어 있는지, block_size/dampening_frac/actorder 파라미터와 sequential epoch 종료 시 quantize_weight 호출 구조 분석#llm-compressor#GPTQ#Quantization#PTQ2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Group Size Validation: 그룹 크기 호환성 검사group_size_validation.py의 validate_group_size 함수가 레이어 shape과 group_size의 호환성을 검증하고 에러 메시지를 제공하는 구조 분석#llm-compressor#Quantization#Validation2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Quantization Calibration: update_weight_zp_scale와 observer 등록calibration.py의 update_weight_zp_scale, update_weight_global_scale 같은 헬퍼 함수들이 모듈 단위로 observer를 호출해 스케일을 결정하는 흐름 분석#llm-compressor#Quantization#Calibration2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Quantization Base: QuantizationModifier와 QuantizationMixinQuantizationModifier가 PTQ/QAT 라이프사이클을 어떻게 관리하고, QuantizationMixin이 observer 등록/calibration/종료를 어떻게 처리하는지 분석#llm-compressor#Quantization#Modifier2026년 4월 13일댓글 수 로딩 중
[llm-compressor] iMatrix Observer: 입력 채널 중요도 가중 MSEIMatrixMSEObserver가 forward pre-hook으로 입력의 E[x^2]를 수집해 채널별 중요도를 계산하고, 그 가중치로 MSE grid search를 수행하는 구조 분석#llm-compressor#Observer#iMatrix#Quantization2026년 4월 13일댓글 수 로딩 중
[llm-compressor] MSE Observer: Grid Search로 양자화 오차 최소화MemorylessMSEObserver와 MovingAverageMSEObserver가 min/max 범위를 점진적으로 줄여가며 양자화 MSE를 최소화하는 grid search 로직 분석#llm-compressor#Observer#MSE#Quantization2026년 4월 13일댓글 수 로딩 중
[llm-compressor] MinMax Observer: 세 가지 min/max 계산 정책MemorylessMinMaxObserver, StaticMinMaxObserver, MinMaxObserver 세 변형이 각각 어떻게 min/max를 집계하는지 코드 분석#llm-compressor#Observer#Quantization#MinMax2026년 4월 13일댓글 수 로딩 중
[llm-compressor] Observers Base: 스케일/제로포인트 계산의 추상 기반Observer 베이스 클래스가 get_min_max 훅을 통해 스케일과 제로포인트를 계산하고, compressed-tensors의 calculate_qparams를 호출하는 구조 분석#llm-compressor#Observer#Quantization2026년 4월 13일댓글 수 로딩 중
[llm-compressor] 프로젝트 전체 아키텍처 분석 - 개요 및 목차llm-compressor의 전체 아키텍처를 11개 계층으로 분석하고, 45개 포스트와 8편 논문 구현을 정리한 시리즈의 개요 포스트#llm-compressor#Architecture#Quantization#Pruning#PTQ2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM의 XPU 가속을 위한 MXFP8 GEMM 커널 도입 분석vLLM이 Intel XPU 환경에서 MXFP8 양자화 연산을 지원하기 위해 전용 GEMM 커널을 추가하고 성능 최적화를 달성했습니다.#vLLM#XPU#MXFP8#Quantization#GEMM#Intel2026년 4월 13일댓글 수 로딩 중
[vllm] vLLM 성능의 한계를 넘다: MXFP8 양자화 지원 및 MoE 최적화 분석vLLM에 추가된 MXFP8 양자화 지원을 통해 추론 처리량을 최대 42% 향상시키고 MoE 모델의 효율성을 극대화하는 방법을 살펴봅니다.#vLLM#Quantization#MXFP8#MoE#Performance-Optimization2026년 4월 12일댓글 수 로딩 중
[SGLang] FP8: 8비트 부동소수점 양자화의 구현과 성능SGLang의 FP8 양자화를 분석한다. E4M3/E5M2 포맷의 차이, 동적/정적 양자화 모드, FP16 대비 메모리 절감과 처리량 향상을 코드와 함께 살펴본다.#sglang#FP8#Quantization#8-bit#E4M32026년 4월 12일댓글 수 로딩 중
[sglang] SGLang의 성능 향상을 위한 기본 Quantization 커널 최적화: v2 도입SGLang에서 고부하 워크로드 처리를 위해 더 빠른 per-token group quantization v2 커널을 기본값으로 설정한 변경사항을 분석합니다.#SGLang#LLM#Quantization#CUDA#KernelOptimization2026년 4월 11일댓글 수 로딩 중
[vllm] AMD ROCm을 위한 Triton 기반 W4A16 커널 도입: MI300X 성능 최적화 분석vLLM에 AMD ROCm 전용 Triton W4A16 커널이 추가되어 MI300X 환경에서 최대 122%의 성능 향상을 달성했습니다.#vLLM#ROCm#Triton#Quantization#MI300X#Performance2026년 4월 10일댓글 수 로딩 중
[sglang] FlashInfer v0.6.7 MXFP8 Gemm 통합: CUTLASS와 TensorRT-LLM 백엔드 분리SGLang에 FlashInfer의 TensorRT-LLM MXFP8 Gemm 커널을 통합하고, CUTLASS 백엔드와의 weight 전처리 및 호출 경로를 명확히 분리한 코드 분석.#SGLang#FlashInfer#MXFP8#CUTLASS#TensorRT-LLM#Quantization#Blackwell2026년 4월 1일댓글 수 로딩 중
[sglang] CI 테스트 최적화: MXFP8 Gemm에 오프라인 양자화 체크포인트 적용SGLang CI에서 MXFP8 Gemm 테스트를 온라인 양자화 대신 사전 양자화된 체크포인트로 전환하여 테스트 안정성과 속도를 개선한 분석.#SGLang#CI#FlashInfer#MXFP8#Quantization#Testing2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Efficient Reasoning on the EdgeLarge Language Models (LLMs)는 Chain-of-Thought (CoT) Reasoning을 통해 복잡한 문제 해결에서 최첨단 성능을 달성하지만, Edge Device 배포에는 여러 제약이 따릅니다.#Review#LLMs#Edge Computing#LoRA#Quantization#Budget Forcing#Switcher Module#Parallel Reasoning2026년 3월 17일댓글 수 로딩 중
[Ultralytics] TensorRT 문서에서 더 이상 유효하지 않은 INT8 배치 2배 참조 제거INT8 캘리브레이션 시 배치 크기를 자동으로 2배로 늘리던 동작이 제거된 후, 관련 문서를 업데이트합니다.#Ultralytics#TensorRT#INT8#Quantization#Documentation2026년 3월 16일댓글 수 로딩 중
[Axolotl] 가중치 동기 로딩으로 OOM 방지MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정#Axolotl#MoE#OOM#Memory Optimization#Quantization2026년 3월 7일댓글 수 로딩 중
[논문리뷰] SageBwd: A Trainable Low-bit Attention저비트 어텐션 모델인 SageBwd 가 사전 훈련 시 완전 정밀도 어텐션(FPA) 대비 지속적인 성능 격차를 보이는 원인을 조사하고, SageBwd 가 사전 훈련에서 FPA 수준의 성능을 회복할 수 있는 조건을 밝히는 것을 목표로 합니다. 이를 통해 저비트 어텐션의 훈련 안정성과 적용 가능성을 확장하고자 합니다.#Review#Low-bit Attention#Quantization#Model Training#Pre-training#Backward Pass#QK-norm#SageBwd#Deep Learning Optimization2026년 3월 5일댓글 수 로딩 중
[논문리뷰] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models다중 모달리티 대규모 언어 모델(MLLMs)에서 채널별 스무딩 양자화(channel-wise smoothing quantization) 기법이 시각 및 텍스트 토큰 활성화의 큰 차이로 인해 실패하는 문제를 해결하는 것이 목표입니다.#Review#Multimodal LLMs#Post-Training Quantization#Modality-Aware Smoothing#Cross-Modal Compensation#Quantization#Model Compression#SVD-based Whitening2026년 3월 5일댓글 수 로딩 중
[Axolotl] MXFP4 양자화 지원 추가torchao의 MXFakeQuantizeConfig를 활용한 MXFP4 QAT 지원 구현 분석#Axolotl#Quantization#MXFP4#QAT#LLM2026년 3월 5일댓글 수 로딩 중
[논문리뷰] BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models본 논문은 리소스 제약이 있는 환경에서 LLM 추론의 메모리 및 대역폭 병목 현상을 해결하기 위한 양자화 기술에 초점을 맞춥니다.#Review#Quantization#Large Language Models#Post-Training Quantization#Bit-Plane Decomposition#Variable Quantization Grid#Low-Bit Quantization#Model Compression#Hessian-Induced Geometry2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Baichuan-M3: Modeling Clinical Inquiry for Reliable Medical Decision-Making본 논문은 기존 의료 LLM이 보이는 수동적인 질문-답변 방식과 개방형 임상 상담에서의 환각 문제를 해결하고자 합니다. 능동적인 정보 획득, 장기적 추론, 적응형 환각 억제 기능을 갖춘 임상 등급의 의사결정 지원 시스템인 Baichuan-M3 를 개발하여 신뢰할 수 있는 의료 의사결정을 목표로 합니다.#Review#Medical LLM#Clinical Decision Support#Reinforcement Learning#Hallucination Suppression#Multi-task Learning#Speculative Decoding#Quantization#Clinical Inquiry2026년 2월 8일댓글 수 로딩 중
[논문리뷰] iFSQ: Improving FSQ for Image Generation with 1 Line of Code이미지 생성 분야의 Autoregressive(AR) 모델과 Diffusion 모델 간의 단절을 해소하고, 이들을 위한 통일된 토크나이저를 구축 하는 것을 목표로 합니다.#Review#Finite Scalar Quantization (FSQ)#Image Generation#Autoregressive Models#Diffusion Models#Quantization#Tokenization#Representation Alignment (REPA)#Latent Space2026년 1월 26일댓글 수 로딩 중
[PyTorch] FlexAttention에 저정밀도 K/V 입력 지원 추가FlexAttention compiled 모드에서 FP8 등 저정밀도 K/V 입력을 허용하여 양자화 추론을 지원한다#PyTorch#FlexAttention#FP8#Quantization2026년 1월 5일댓글 수 로딩 중
[논문리뷰] TurboDiffusion: Accelerating Video Diffusion Models by 100-200 Times본 논문은 비디오 확산 모델의 엔드-투-엔드 생성 속도를 100~200배 가속화하면서도 비디오 품질을 유지하는 것을 목표로 합니다. 이는 현재 확산 모델의 높은 계산 비용으로 인한 비효율성을 해결하고, 고품질 비디오 생성을 더욱 실용적으로 만드는 데 중점을 둡니다.#Review#Video Generation#Diffusion Models#Acceleration#Quantization#Attention#Step Distillation#Performance Optimization#RTX 50902025년 12월 24일댓글 수 로딩 중
[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Edge AI#Efficient Inference#Visual Resolution Compressor#Dual Consistency Learning#Vision Transformer#Quantization#Low-Latency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs본 논문은 제한된 리소스를 가진 엣지 디바이스에서 대규모 언어 모델(LLM)의 효율적인 배포를 가능하게 하는 것을 목표로 합니다.#Review#LLM Compression#Quantization#Pruning#Edge AI#Adaptive Deployment#Transformer#State Space Models#Hybrid Models#One-shot Compression2025년 12월 3일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano V2 VLNemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.#Review#Vision-Language Model#Hybrid Architecture#Mamba-Transformer#Long-Context Understanding#Quantization#Efficient Inference#Document AI#Video AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats현대 AI 하드웨어는 LLM의 아웃라이어를 처리하기 위해 저정밀 부동소수점(FP) 형식을 점차 채택하고 있으나, 다양한 과립도(granularity)에 걸친 FP와 정수(INT) 양자화에 대한 통합적인 비교 연구가 부족합니다.#Review#Quantization#Low-bit Formats#Integer Quantization#Floating-Point Quantization#Large Language Models (LLMs)#Hardware Efficiency#Fine-Grained Quantization#MXINT82025년 11월 9일댓글 수 로딩 중
[논문리뷰] Quantized Visual Geometry Grounded Transformer대규모 Visual Geometry Grounded Transformers (VGGTs) 모델의 과도한 연산 및 메모리 비용 문제를 해결하고, 실세계 배포를 위한 효율적인 저비트 양자화 프레임워크를 개발하는 것이 목표입니다.#Review#Quantization#Post-Training Quantization#3D Reconstruction#Visual Transformer#Model Compression#Efficient Inference#Hadamard Rotation#Calibration Sampling2025년 9월 26일댓글 수 로딩 중
[논문리뷰] EmbeddingGemma: Powerful and Lightweight Text Representations이 연구의 주요 목표는 강력하면서도 경량화된 오픈 소스 텍스트 임베딩 모델인 EmbeddingGemma 를 개발하는 것입니다.#Review#Text Embeddings#Lightweight Models#Encoder-Decoder#Knowledge Distillation#Model Souping#Quantization#Multilingual#Gemma2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs본 논문은 대규모 언어 모델(LLMs)의 효율적인 배포를 위해 양자화(Quantization) 와 희소화(Sparsification) 를 동시에 적용하는 새로운 압축 방법을 제안합니다.#Review#LLM Compression#Quantization#Sparsification#Post-training Quantization#Hessian-based Optimization#Error Compensation#Low-bit LLMs2025년 9월 17일댓글 수 로딩 중
[논문리뷰] Q-Sched: Pushing the Boundaries of Few-Step Diffusion Models with Quantization-Aware Scheduling본 논문은 계산 비용이 높은 텍스트-이미지 확산 모델의 추론 효율성 을 개선하는 것을 목표로 합니다.#Review#Diffusion Models#Quantization#Few-Step Generation#Model Compression#Noise Scheduling#Post-Training Quantization#Image Quality Metrics#Latent Consistency Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Semantic IDs for Joint Generative Search and Recommendation본 논문은 대규모 언어 모델(LLM)을 활용한 통합 검색 및 추천 시스템 구축을 위해, 항목을 LLM 친화적인 이산 토큰(Semantic ID)으로 효과적으로 표현하는 방법을 제시하고, 공동 태스크에서의 성능 최적화를 목표로 합니다. 특히, 기존의 분리된 시스템을 통합할 때 발생하는 성능 충돌 문제를 해결하고자 합니다.#Review#Generative Models#Search and Recommendation#Semantic IDs#Bi-Encoder#Quantization#Multi-Task Learning#Retrieval Augmented Generation2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Performance Trade-offs of Optimizing Small Language Models for E-Commerce본 논문은 대규모 상용 LLM의 높은 비용과 리소스 제약 문제를 해결하기 위해, 소규모 오픈-웨이트 모델이 특정 도메인 작업에서 효율적인 대안이 될 수 있는지 검증하는 것을 목표로 합니다.#Review#Small Language Models#E-commerce#Intent Recognition#Fine-tuning#QLoRA#Quantization#GPTQ#GGUF#Hardware-aware Optimization2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Beyond Outliers: A Study of Optimizers Under Quantization대규모 언어 모델(LLMs)의 효율적인 배포를 위해 Quantization 이 필수가 됨에 따라, 옵티마이저 선택 이 양자화 성능에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.#Review#Quantization#Optimizers#LLM#Post-Training Quantization (PTQ)#Quantization-Aware Training (QAT)#Error Propagation#Scaling Laws#Shampoo2025년 10월 10일댓글 수 로딩 중