[논문리뷰] Untied Ulysses: Memory-Efficient Context Parallelism via Headwise Chunking본 논문은 트랜스포머 모델의 장문 시퀀스 훈련에서 기존 컨텍스트 병렬화 기법들이 직면하는 활성화 메모리 병목 현상 을 해결하여 지원 가능한 시퀀스 길이를 확장하는 것을 목표로 합니다. 특히, 메모리 효율성을 높이면서도 훈련 처리량은 유지하는 새로운 방법론을 제시하고자 합니다.#Review#Context Parallelism#Memory Efficiency#Headwise Chunking#Transformer Training#DeepSpeed Ulysses#LLMs#Activation Memory#Flash Attention2026년 2월 24일댓글 수 로딩 중
[논문리뷰] QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action ModelsVision-Language-Action (VLA) 모델은 로봇 제어 및 추론 태스크에서 강력한 성능을 보이지만, 점차 증가하는 컴퓨팅 및 메모리 요구 사항으로 인해 실용적인 배포에 상당한 어려움을 겪고 있습니다.#Review#Post-Training Quantization (PTQ)#Vision-Language-Action (VLA) Models#Diffusion Transformer (DiT)#Scale Calibration#Memory Efficiency#Robotics#Low-Bit Quantization2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm대규모 언어 모델(LLM) 사전 학습에 필요한 막대한 GPU 메모리 및 통신 대역폭 요구 사항으로 인한 중앙 집중식 학습의 한계를 극복하는 것입니다.#Review#Decentralized Training#Mixture-of-Experts (MoE)#Large Language Models (LLMs)#Memory Efficiency#Sparse Expert Synchronization#Federated Learning#Distributed GPUs2026년 2월 12일댓글 수 로딩 중
[논문리뷰] When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning대규모 언어 모델(LLMs)이 장문 컨텍스트 추론에서 겪는 성능 저하, 컨텍스트 길이 증가에 따른 메모리 폭발(memory explosion) , 그리고 불필요한 연산으로 인한 비효율성 문제 를 해결하는 것을 목표로 합니다.#Review#Long-Context Reasoning#Large Language Models (LLMs)#Recurrent Memory#Gated Mechanisms#Reinforcement Learning#Memory Efficiency#Early Exit2026년 2월 11일댓글 수 로딩 중
[논문리뷰] HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding기존 Multimodal Large Language Models (MLLMs) 이 스트리밍 비디오 이해에서 겪는 성능 불안정, 높은 응답 지연 시간, 높은 GPU 메모리 사용량 등의 문제를 해결하는 것을 목표로 합니다.#Review#Streaming Video Understanding#KV Cache Management#Hierarchical Memory#MLLMs#Low Latency#Training-free#Memory Efficiency2026년 1월 22일댓글 수 로딩 중
[논문리뷰] HyRF: Hybrid Radiance Fields for Memory-efficient and High-quality Novel View Synthesis3D Gaussian Splatting (3DGS) 의 실시간 고품질 렌더링 장점은 유지하면서, 뷰-의존적 효과 및 이방성 모양 모델링으로 인한 막대한 메모리 오버헤드 를 해결하는 것을 목표로 합니다.#Review#Novel View Synthesis#3D Gaussian Splatting (3DGS)#Neural Radiance Fields (NeRF)#Memory Efficiency#High-Quality Rendering#Hybrid Representation#Real-time Rendering2025년 9월 24일댓글 수 로딩 중
[논문리뷰] EpiCache: Episodic KV Cache Management for Long Conversational Question Answering대규모 언어 모델(LLM) 기반의 장기 대화형 질문 답변(LongConvQA) 시스템에서 KV 캐시의 메모리 사용량이 대화 길이에 따라 선형적으로 증가 하는 문제를 해결하는 것이 목표입니다.#Review#KV Cache Management#Long Conversational QA#LLMs#Memory Efficiency#Episodic Clustering#Block Prefill Eviction#Sensitivity-aware Allocation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill & Decode Inference본 논문은 DeepSeek-V2 에서 도입된 Multi-Head Latent Attention (MLA) 이 Tensor Parallelism (TP) 환경에서 KV 캐시 메모리 절감 효과를 잃는 문제를 해결하고자 합니다.#Review#LLM Inference#Tensor Parallelism#KV Cache Optimization#Latent Attention#Memory Efficiency#Decoding Speedup#Prefill/Decode Separation#Reparameterization2025년 8월 25일댓글 수 로딩 중
[논문리뷰] BitNet Distillation본 논문은 기존의 풀-정밀도 LLM (예: Qwen )을 특정 다운스트림 태스크를 위해 1.58비트 정밀도 (삼진 가중치: {-1, 0, 1}) 로 미세 조정하여, 최소한의 계산 비용으로 풀-정밀도 모델에 필적하는 성능을 달성하는 것을 목표로 합니다.#Review#Low-bit Quantization#LLM Compression#Knowledge Distillation#Ternary Weights#Inference Optimization#Memory Efficiency#SubLN#Continual Pre-training2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models본 논문은 확산 대규모 언어 모델(dLLMs)에 강화 학습(RL)을 적용할 때 발생하는 주요 문제점, 즉 RL 목표에 필수적인 우도 함수의 계산 불가능성을 해결하는 것을 목표로 합니다.#Review#Diffusion Large Language Models#Reinforcement Learning#Memory Efficiency#Monte Carlo Sampling#Log-Likelihood Approximation#Policy Optimization#ELBO2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Which Heads Matter for Reasoning? RL-Guided KV Cache Compression추론(reasoning) 기반 대규모 언어 모델(LLM)은 긴 CoT(Chain-of-Thought) 생성을 통해 막대한 KV(Key-Value) 캐시 오버헤드를 발생시킵니다.#Review#KV Cache Compression#Large Language Models (LLMs)#Reinforcement Learning (RL)#Reasoning Models#Attention Heads#Chain-of-Thought (CoT)#Memory Efficiency2025년 10월 13일댓글 수 로딩 중
[논문리뷰] LightCache: Memory-Efficient, Training-Free Acceleration for Video Generation본 논문은 확산 모델 기반 비디오 생성 과정에서 발생하는 높은 GPU 메모리 사용량 과 긴 추론 시간 문제를 해결하고자 합니다. 특히 기존 캐싱 기반 가속화 방법이 야기하는 메모리 급증 현상 을 극복하고, 모델 훈련 없이 메모리 효율적인 가속화를 달성하여 실제 환경 배포의 제약을 완화하는 것을 목표로 합니다.#Review#Video Generation#Diffusion Models#Memory Efficiency#Inference Acceleration#Training-Free#Cache Mechanism#GPU Optimization2025년 10월 8일댓글 수 로딩 중
[논문리뷰] ACON: Optimizing Context Compression for Long-horizon LLM Agents본 논문은 장기(long-horizon) LLM 에이전트 태스크 에서 발생하는 컨텍스트 길이 증가 문제 를 해결하고자 합니다. 상호작용 기록 및 환경 관찰을 최적으로 압축하여, 추론 비용 과 메모리 사용량 을 줄이면서도 에이전트의 태스크 성능 을 유지하거나 향상시키는 통합 프레임워크를 제안하는 것을 목표로 합니다.#Review#LLM Agents#Context Compression#Long-horizon Tasks#Prompt Optimization#Knowledge Distillation#Memory Efficiency#Task Performance#Failure Analysis2025년 10월 2일댓글 수 로딩 중