[sglang] AMD MI300에서의 GPT-OSS 120B 추론 성능 최적화: 새로운 KV 캐시 레이아웃과 커널 통합AMD GPU에서 GPT-OSS 120B 모델의 추론 속도를 15% 이상 향상시키는 최적화 방안을 분석합니다.#AMD#ROCm#SGLang#GPT-OSS#성능 최적화#KV Cache#Attention Kernel2026년 6월 8일댓글 수 로딩 중
[논문리뷰] End-to-End Context Compression at Scale본 연구는 긴 문맥(long-context) 처리가 LLM의 핵심 역량임에도 불구하고, 기하급수적으로 증가하는 KV Cache 메모리 점유율과 이로 인한 추론 속도 저하 문제를 해결하고자 합니다.#Review#Context Compression#KV Cache#Latent Context Language Models#Encoder-Decoder#End-to-End Training#Model Efficiency2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Value-Aware Stochastic KV Cache Eviction for Reasoning Models본 논문은 Reasoning 모델이 복잡한 추론 과정에서 생성하는 긴 출력(Chain of Thought)으로 인해 발생하는 심각한 메모리 및 연산 병목 현상을 해결하고자 한다.#Review#KV Cache#Eviction#Reasoning Models#Stochasticity#Value-Awareness#Sparse Attention#Large Language Models2026년 6월 2일댓글 수 로딩 중
[sglang] SGLang NIXL HiCache 리팩토링 및 O_DIRECT 지원 추가: 성능 향상과 안정성 강화SGLang의 NIXL HiCache 커넥터 리팩토링 및 O_DIRECT 지원 추가로 I/O 성능 향상 및 안정성 개선.#SGLang#NIXL#HiCache#O_DIRECT#성능 최적화#KV Cache2026년 6월 1일댓글 수 로딩 중
[논문리뷰] VideoMLA: Low-Rank Latent KV Cache for Minute-Scale Autoregressive Video Diffusion본 논문은 autoregressive 영상 확산 모델에서 streaming 생성 시 발생하는 방대한 KV 캐시 메모리 비용 문제를 해결하고자 합니다.#Review#Video Diffusion#Multi-Head Latent Attention#KV Cache#Autoregressive Generation#Low-Rank Latent#Streaming Video#3D-RoPE2026년 6월 1일댓글 수 로딩 중
[논문리뷰] AdaState: Self-Evolving Anchors for Streaming Video Generation본 논문은 기존 autoregressive 비디오 생성 모델이 겪는 '일관성과 동적 표현 사이의 트레이드오프' 문제를 해결하고자 합니다.#Review#Streaming Video Generation#Autoregressive Diffusion#Adaptive State#Attention Sink#Horizon-Weighted DMD#KV Cache#Temporal Dynamics2026년 5월 28일댓글 수 로딩 중
[논문리뷰] Echo-Forcing: A Scene Memory Framework for Interactive Long Video Generation본 논문은 Autoregressive 비디오 확산 모델이 긴 비디오 생성 및 대화형 시나리오에서 겪는 기억 관리(KV Cache management)의 기능적 Entanglement 문제를 해결하고자 한다.#Review#Video Generation#Autoregressive#KV Cache#Scene Memory#Long-form Video#Interactive Generation2026년 5월 19일댓글 수 로딩 중
[sglang] SGLang P/D Disaggregation: Decode-Side Radix Cache 도입으로 LLM 추론 성능 극대화SGLang의 P/D Disaggregation에서 Decode-Side Radix Cache를 도입하여 LLM 추론 시 KV Cache 재사용률을 높이고 성능을 획기적으로 개선한 PR 분석#LLM#SGLang#Inference Optimization#KV Cache#Disaggregation#Performance2026년 5월 1일댓글 수 로딩 중
[sglang] SGLang, FP4 KV 캐시 도입으로 LLM 추론 성능 극대화: NVFP4 최적화 분석SGLang의 FP4 KV 캐시 도입으로 LLM 추론 성능을 혁신적으로 개선하는 NVFP4 최적화를 분석합니다.#LLM#KV Cache#Quantization#Optimization#SGLang#FP4#NVFP42026년 4월 29일댓글 수 로딩 중
[sglang] AMD GPU에서 FP8 KV 캐시 쓰기 최적화: Triton 커널 융합으로 성능 향상AMD GPU의 FP8 KV 캐시 쓰기 성능을 개선하기 위해 Triton 커널을 융합하여 오버헤드를 줄였습니다.#AMD GPU#FP8#Triton Kernel#KV Cache#Optimization#SGLang2026년 4월 25일댓글 수 로딩 중
[논문리뷰] KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs본 논문은 RAG(Retrieval-Augmented Generation) 환경에서 빈번하게 발생하는 KV cache의 컨텍스트 의존성 및 그로 인한 추론 지연 문제를 해결하는 것을 목표로 합니다.#Review#LLM#KV Cache#RAG#Recomputation-Free#Soft-token Adapter#Self-Supervised Distillation#Attention Dynamics2026년 4월 16일댓글 수 로딩 중
[vllm] vLLM TurboQuant: KV 캐시 압축으로 LLM 서빙 효율 극대화vLLM의 TurboQuant는 KV 캐시를 압축하여 메모리 사용량을 줄이고 LLM 서빙 효율을 높입니다.#vLLM#LLM#KV Cache#Quantization#Optimization#Triton#GPU Memory2026년 4월 15일댓글 수 로딩 중
[SGLang] RadixAttention: Radix Tree 기반 프리픽스 캐싱의 핵심SGLang의 핵심 혁신인 RadixAttention을 분석한다. Radix Tree 자료구조를 활용한 KV 캐시 프리픽스 공유, PagedAttention 대비 5x 성능 향상의 원리를 코드와 함께 살펴본다.#sglang#RadixAttention#Prefix Caching#Radix Tree#KV Cache2026년 4월 10일댓글 수 로딩 중
[sglang] SGLang NIXL 이기종 TP 환경에서 디스어그리게이션 KV 캐시 전송 버그 수정 및 성능 개선SGLang NIXL에서 이기종 TP 환경의 KV 캐시 전송 문제를 해결하여 디스어그리게이션 서빙 안정성을 높였습니다.#SGLang#NIXL#KV Cache#Disaggregation#TP Heterogeneous#Optimization2026년 4월 7일댓글 수 로딩 중
[논문리뷰] TriAttention: Efficient Long Reasoning with Trigonometric KV Compression본 논문은 기존 KV Cache 압축 기법들이 post-RoPE 공간의 제한된 관측치에 의존하여 발생하는 불안정성 문제를 해결하고자 합니다. 기존 방식들은 회전이 적용된 post-RoPE 쿼리를 사용하므로, 대표성 있는 쿼리 확보가 어려워 중요한 토큰이 조기에 삭제되는 현상이 빈번합니다 .#Review#KV Cache#LLM#Attention#RoPE#Compression#Reasoning2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Universal YOCO for Efficient Depth Scaling본 논문은 기존 Transformer 기반 LLM의 추론 시간(Test-time) 계산 확장 효율성 문제를 해결하기 위해 제안되었습니다. 표준 Transformer에 단순 루핑 기법을 적용하면 계산 복잡도가 급증하고, 모델 깊이에 따라 KV cache 요구량이 선형적으로 증가하여 메모리 비용이 매우 커집니다.#Review#Large Language Models#Recursive Computation#YOCO#Depth Scaling#Inference Efficiency#KV Cache#Decoder-Decoder Architecture2026년 4월 1일댓글 수 로딩 중
[sglang] HiSparse 도입: Sparse Attention 모델을 위한 효율적인 KV 캐시 관리HiSparse는 CPU 메모리를 활용해 유휴 KV 캐시를 저장함으로써, DeepSeek-V3와 같은 Sparse Attention 모델의 배치 사이즈와 처리량을 극대화합니다.#SGLang#LLM#KV Cache#Sparse Attention#CUDA2026년 3월 23일댓글 수 로딩 중
[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models본 논문은 기존 확산 비전 언어 모델(dVLMs)의 성능 저하와 가변 길이 생성 및 KV 캐시 재사용의 비효율성 문제를 해결하고자 합니다.#Review#Diffusion Models#Vision Language Models#Autoregressive Models#Diffusion Finetuning#Block Diffusion#Multimodal AI#KV Cache2025년 12월 17일댓글 수 로딩 중
[논문리뷰] BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation본 논문은 블록 확산 모델을 사용하여 분 단위 길이의 고품질 및 일관된 비디오를 생성하는 데 따르는 주요 과제들을 해결하는 것을 목표로 합니다. 특히, KV-캐시(KV-cache)로 인한 장기적 오류 누적 문제와 세밀한 긴 비디오 벤치마크 및 일관성 측정 지표의 부족 을 해결하고자 합니다.#Review#Block Diffusion#Video Generation#Temporal Consistency#KV Cache#Semi-Autoregressive#Video Quality Metrics#Long Video Generation2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout본 논문은 기존의 autoregressive 비디오 diffusion 모델이 가진 세 가지 핵심 한계를 해결하는 것을 목표로 합니다.#Review#Autoregressive Video Generation#Rotary Positional Embedding#Infinite Video Generation#Action Control#Cinematic Transitions#Video Diffusion Models#KV Cache2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Latent Collaboration in Multi-Agent Systems본 논문은 기존 대규모 언어 모델(LLM) 기반 다중 에이전트 시스템(MAS)이 텍스트 기반 추론 및 통신에 의존하여 발생하는 비효율성과 정보 손실 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Systems#Large Language Models#Latent Space#Latent Reasoning#Latent Communication#KV Cache#Computational Efficiency#Training-Free2025년 11월 26일댓글 수 로딩 중
[논문리뷰] TiDAR: Think in Diffusion, Talk in Autoregression본 연구는 대규모 언어 모델(LLM)의 생성 과정에서 확산 모델(Diffusion Models) 의 빠른 병렬 생성 능력과 자기회귀(Autoregressive, AR) 모델 의 높은 품질을 동시에 달성하는 것을 목표로 합니다.#Review#Hybrid LLM Architecture#Diffusion-Autoregressive#Parallel Token Generation#Speculative Decoding#Structured Attention Masks#LLM Inference Acceleration#KV Cache2025년 11월 12일댓글 수 로딩 중
[논문리뷰] LongLive: Real-time Interactive Long Video Generation실시간 및 대화형으로 고품질의 긴 비디오를 생성하는 데 따르는 효율성, 일관성, 그리고 시맨틱 일관성 문제를 해결하는 것을 목표로 합니다. 특히, 프롬프트 전환 시 시각적 일관성과 동적 콘텐츠 생성을 위한 상호작용성 부족이라는 기존 AR 및 Diffusion 모델의 한계를 극복하고자 합니다.#Review#Long Video Generation#Real-time#Interactive AI#Autoregressive Models#KV Cache#Streaming Tuning#Attention Sink#Diffusion Models2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Attention Is All You Need for KV Cache in Diffusion LLMs본 논문은 확산 대규모 언어 모델(DLMs)의 추론 과정에서 발생하는 과도한 Key-Value (KV) 캐시 재계산으로 인한 높은 지연 시간을 해결하는 것을 목표로 합니다.#Review#Diffusion LLMs#KV Cache#Adaptive Caching#Inference Optimization#Attention Mechanism#Latency Reduction#Generative AI2025년 10월 17일댓글 수 로딩 중
[논문리뷰] d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching확산 기반 대규모 언어 모델(dLLM)은 양방향 어텐션 구조 때문에 표준 Key-Value(KV) 캐시 의 이점을 활용하지 못해 추론 효율성이 떨어진다는 문제를 해결하는 것이 목표입니다.#Review#Diffusion Models#Large Language Models (LLMs)#Inference Acceleration#KV Cache#Bidirectional Attention#Adaptive Caching#Token Selection2025년 10월 1일댓글 수 로딩 중