[ACE-Step-1.5] MLX VAE 디코딩 메모리 최적화: Apple Silicon에서 피크 메모리 56% 절감MLX VAE 디코딩 청크 크기를 줄여 Apple Silicon의 피크 메모리를 56% 절감했습니다.#MLX#Apple Silicon#VAE#Memory Optimization#Performance2026년 4월 7일댓글 수 로딩 중
[Loki] Kafka 파티션 불필요한 Shuffle Sharding 제거ShardSize가 0일 때 불필요한 shuffle shard 생성을 건너뛰어 메모리 사용량 절감.#Grafana Loki#Go#Performance#Kafka#Memory Optimization2026년 4월 1일댓글 수 로딩 중
[Loki] 캐시 최대 크기 초과 시 조기 중단으로 OOM 방지증분 인코딩과 크기 체크로 대용량 응답의 불필요한 버퍼링 제거#Grafana Loki#Cache#Memory Optimization#Performance2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernelsalexazh이 arXiv에 게시한 'Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels' 논문에 대한 자세한 리뷰입니다.#Review#DoRA#Low-Rank Adaptation#Parameter-Efficient Fine-Tuning#Fused Kernels#Memory Optimization#Performance Scaling#Triton2026년 3월 23일댓글 수 로딩 중
[Loki] Shard Factor 1일 때 Shuffle Shard 생략으로 메모리 50% 절감단일 파티션 할당 시 불필요한 ShuffleShard 호출을 건너뛰어 CPU와 메모리 사용량 대폭 절감.#Grafana Loki#Go#Performance#Memory Optimization#Kafka2026년 3월 18일댓글 수 로딩 중
[axolotl] FSDP CPU RAM Efficient Loading 패치: non-rank-0 프로세스의 불필요한 가중치 초기화 방지FSDP 분산 학습에서 cpu_ram_efficient_loading 사용 시 non-rank-0 프로세스가 가중치를 재초기화하는 문제를 monkeypatch로 해결한 사례를 분석합니다.#Axolotl#FSDP#Distributed Training#Memory Optimization#Monkeypatch2026년 3월 16일댓글 수 로딩 중
[논문리뷰] Flash-KMeans: Fast and Memory-Efficient Exact K-MeansarXiv에 게시된 'Flash-KMeans: Fast and Memory-Efficient Exact K-Means' 논문에 대한 자세한 리뷰입니다.#Review#K-Means Clustering#GPU Acceleration#Memory Optimization#IO-Aware Computing#Online Primitive#Hardware-Aware Algorithms#Contention-Free Operations#AI Workloads2026년 3월 11일댓글 수 로딩 중
[Axolotl] 가중치 동기 로딩으로 OOM 방지MoE 모델 로딩 시 비동기 텐서 전송을 비활성화하여 GPU OOM을 방지하는 수정#Axolotl#MoE#OOM#Memory Optimization#Quantization2026년 3월 7일댓글 수 로딩 중
[논문리뷰] Helios: Real Real-Time Long Video Generation ModelarXiv에 게시된 'Helios: Real Real-Time Long Video Generation Model' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Real-Time#Long Video#Diffusion Transformers#Anti-Drifting#Memory Optimization#Distillation#Autoregressive Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] veScale-FSDP: Flexible and High-Performance FSDP at ScaleCong Xie이 arXiv에 게시한 'veScale-FSDP: Flexible and High-Performance FSDP at Scale' 논문에 대한 자세한 리뷰입니다.#Review#FSDP#Distributed Training#LLM#GPU Scaling#Memory Optimization#Performance Optimization#Structure-Aware Training#RaggedShard2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache QuantizationarXiv에 게시된 'Quant VideoGen: Auto-Regressive Long Video Generation via 2-Bit KV-Cache Quantization' 논문에 대한 자세한 리뷰입니다.#Review#Auto-Regressive Video Generation#KV-Cache Quantization#Memory Optimization#Long Video Generation#Video Diffusion Models#Semantic-Aware Smoothing#Progressive Residual Quantization2026년 2월 4일댓글 수 로딩 중
[논문리뷰] HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache SharingarXiv에 게시된 'HySparse: A Hybrid Sparse Attention Architecture with Oracle Token Selection and KV Cache Sharing' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Attention#KV Cache Sharing#Hybrid Attention#Long-Context LLMs#Memory Optimization#Token Selection#Transformer Architecture2026년 2월 4일댓글 수 로딩 중
[Triton] AMD PartitionedSharedEncodingAttr 도입으로 shared memory 파티셔닝 지원텐서를 여러 물리적 shared memory 파티션에 분산 배치하여 bank conflict를 줄이는 새로운 encoding attribute 추가#Triton#AMD#MLIR#Shared Memory#Memory Optimization2026년 2월 4일댓글 수 로딩 중
[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.#Grafana Loki#Go#Performance#Decoder#Memory Optimization#Benchmark2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video GenerationarXiv에 게시된 'Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Direct Preference Optimization#SFT Regularization#GT-Pair#Memory Optimization#Diffusion Models#I2V#T2V2025년 11월 9일댓글 수 로딩 중
[논문리뷰] NOSA: Native and Offloadable Sparse AttentionZhiyuan Liu이 arXiv에 게시한 'NOSA: Native and Offloadable Sparse Attention' 논문에 대한 자세한 리뷰입니다.#Review#Sparse Attention#KV Cache Offloading#LLMs#Decoding Throughput#Locality Constraint#Memory Optimization#Trainable Sparse Attention2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMsJianguo Li이 arXiv에 게시한 'MoBE: Mixture-of-Basis-Experts for Compressing MoE-based LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Mixture-of-Experts (MoE)#LLM Compression#Matrix Decomposition#Parameter Efficiency#Deep Learning#Memory Optimization2025년 8월 12일댓글 수 로딩 중
[논문리뷰] LeanK: Learnable K Cache Channel Pruning for Efficient DecodingYuqing Yang이 arXiv에 게시한 'LeanK: Learnable K Cache Channel Pruning for Efficient Decoding' 논문에 대한 자세한 리뷰입니다.#Review#LLM#KV Cache Optimization#Model Pruning#Efficient Decoding#Memory Optimization#Static Sparsity#Transformer2025년 8월 7일댓글 수 로딩 중