#Memory Management

43개의 포스트

[loki] Grafana Loki 엔진의 집계 성능 최적화: 메모리 할당 감소와 효율적인 라벨 처리

Loki 엔진의 집계 로직을 개선하여 메모리 할당을 줄이고, 라벨 캐싱 최적화 및 AddN 도입으로 성능을 약 25% 향상시켰습니다.

#Grafana Loki #Go #Performance Optimization #Memory Management #Engineering

2026년 6월 24일

[loki] Grafana Loki: Range Aggregation 성능 최적화와 메모리 할당 감소

overlapping window 시나리오에서 불필요한 메모리 할당을 제거하여 성능을 39% 향상시킨 사례 분석

#Golang #Grafana Loki #Performance #Optimization #Memory Management

2026년 5월 18일

[sglang] SGLang 최적화: NPU 환경을 위한 RoPE 캐싱 메모리 효율화

SGLang에서 NPU 환경을 고려한 조건부 RoPE 캐싱 로직 도입으로 약 230MB의 메모리 사용량을 절감한 사례를 분석합니다.

#SGLang #LLM #NPU #Optimization #Memory Management

2026년 5월 15일

[cpython] CPython arraymodule 최적화: 구조체 메모리 레이아웃 개선을 통한 성능 향상

CPython의 arraymodule 내 arraydescr 구조체에서 포인터 대신 고정 크기 배열을 사용하여 메모리 효율성과 접근 속도를 개선한 사례를 분석합니다.

#CPython #C #Optimization #Memory Management #Performance

2026년 5월 6일

[vllm] vLLM IR의 진화: maybe_inplace 오버로드를 통한 메모리 최적화

vLLM IR에 maybe_inplace 오버로드를 도입하여 커널 실행 시 입력 텐서 메모리를 재사용함으로써 성능을 개선했습니다.

#vLLM #IR #Optimization #PyTorch #Memory Management

2026년 5월 2일

[SGLang] LoRA Eviction: 어댑터 캐시 관리와 퇴거 정책

SGLang의 LoRA Eviction 정책을 분석한다. GPU 메모리 한계 내에서 어댑터를 관리하는 캐시 전략, LRU 기반 퇴거, 어댑터 프리로딩을 코드와 함께 살펴본다.

#sglang #LoRA Eviction #Adapter Cache #LRU #Memory Management

2026년 4월 14일

[SGLang] KV Cache Offloading: Decode 중 메모리 오프로딩

SGLang의 KV Cache Offloading을 분석한다. Decode 단계에서 GPU 메모리 부족 시 KV 캐시를 CPU로 오프로딩하는 전략을 코드와 함께 살펴본다.

#sglang #KV Offloading #CPU Offload #Memory Management

2026년 4월 13일

[SGLang] Hybrid Cache Controller: GPU/CPU 하이브리드 캐시 관리

SGLang의 Hybrid Cache Controller를 분석한다. GPU와 CPU 메모리를 결합한 하이브리드 캐시 구조, 핫/콜드 데이터 자동 분류, 계층 간 데이터 이동을 코드와 함께 살펴본다.

#sglang #Hybrid Cache #GPU CPU #Memory Management

2026년 4월 10일

[논문리뷰] LightThinker++: From Reasoning Compression to Memory Management

저자들은 암시적 압축에서 시작하여 명시적 행동 수준의 관리로 진화하는 LightThinker 계열 모델을 제안한다. LightThinker는 gist tokens와 특수 설계된 attention mask를 활용하여 긴 사고 과정을 컴팩트한 표현으로 변환한다 .

#Review #Large Language Models #Reasoning Compression #Memory Management #Agentic Reasoning #Context Optimization

2026년 4월 6일

[sglang] NPU 호환성 수정: empty_cache와 memory_saver 충돌 해결

Ascend NPU 환경에서 empty_cache 호출 위치를 조정하여 memory_saver_adapter.region과의 충돌을 해결하고, Triton 비지원 백엔드 목록에 ascend를 추가한 분석.

#SGLang #NPU #Ascend #Memory Management #Bug Fix

2026년 3월 31일

[CPython] sqlite3 콜백 컨텍스트의 메모리 관리 버그 수정

sqlite3 모듈의 내부 callback context 메모리 관리 결함을 수정하여 MemoryError 대신 SystemError가 발생하던 문제와 SQLITE_BUSY 시 crash를 해결한 분석.

#CPython #sqlite3 #Memory Management #Bug Fix #C

2026년 3월 29일

[sglang] GC Threshold 인자 추가: Python 가비지 컬렉션 주기 튜닝 지원

SGLang 서버에 --gc-threshold 인자를 추가하여 Python GC(Garbage Collection)의 수집 빈도를 사용자가 직접 제어할 수 있도록 한 기능 분석.

#SGLang #Python GC #Performance Tuning #Memory Management #Server Args

2026년 3월 27일

[논문리뷰] MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution

Large Language Models (LLMs) 기반의 Agent들이 장기적인 상호작용을 지원하기 위해 외부 메모리 뱅크를 활용하지만, 대부분의 기존 시스템은 메모리 Construction , Retrieval , Utilization 단계를 개별적인 서브루틴으로 분리하여 처리하는 한계를 가집니다.

#Review #LLM Agents #Memory Cycle #Multi-Agent Reasoning #Self-Evolution #Long-Horizon Memory #Strategic Blindness #Memory Management

2026년 3월 26일

[논문리뷰] CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Multimodal Large Language Models (MLLMs)는 오프라인 비디오 이해에서 뛰어난 성능을 보였으나, 스트리밍 비디오 시나리오에서는 본질적인 병목 현상에 직면한다.

#Review #Streaming Video Understanding #MLLMs #Memory Management #Curvature Score #Hierarchical Visual Memory #Catastrophic Forgetting

2026년 3월 22일

[Ray Core] OOM Killer에서 대용량 메모리를 점유한 유휴 워커를 우선 종료

메모리 부족 시 태스크가 할당된 워커만 종료하던 OOM Killer를 개선하여, 유휴 상태에서 대량 메모리를 점유하는 워커를 우선 종료하도록 변경한 분석.

#Ray #C++#Performance #OOM #Memory Management

2026년 3월 16일

[Ray] 메모리 압력 테스트의 로그 패턴 업데이트로 테스트 안정성 확보

워커 종료 로그 메시지 변경에 맞춰 메모리 압력 테스트의 기대 문자열을 업데이트한 분석.

#Ray #Python #Testing #Memory Management #Observability

2026년 3월 13일

[논문리뷰] Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

대규모 언어 모델(LLM) 에이전트가 장기 작업에서 직면하는 유한한 컨텍스트 윈도우 병목 현상을 해결하는 것이 목표입니다. 기존의 컨텍스트 축소 방식(예: 잘라내기, 요약)이 증거를 손실하는 근본적인 문제를 극복하여, 증거를 버리지 않고도 컨텍스트를 압축하는 효율적이고 정밀한 메모리 메커니즘을 개발하고자 합니다.

#Review #LLM Agents #Long-Horizon Tasks #Memory Management #Indexed Experience Memory #Reinforcement Learning #Context Window #Tool Use #MEMEXRL

2026년 3월 4일

[Ray] 다중 입력 연산자의 메모리 귀속 오류 수정으로 데드락 해결

Ray Data의 UnionOp/ZipOp에서 전체 내부 큐 크기를 각 업스트림에 동일하게 귀속시켜 발생하던 잘못된 백프레셔와 데드락을, 입력별 큐 추적으로 해결한 버그 수정을 분석합니다.

#Ray #Python #Performance #Deadlock #Memory Management #Data Pipeline

2026년 2월 24일

[Ray Core] Memory Monitor의 OS별 조건부 컴파일 패턴 적용

메모리 모니터를 인터페이스 분리 + OS별 빌드로 리팩토링하여 유지보수성과 확장성 개선.

#Ray #C++#Performance #Memory Management #Architecture

2026년 2월 18일

[triton] 컴파일된 커널 모듈 명시적 unload 지원

Triton 런타임에서 컴파일된 커널 모듈을 명시적으로 unload할 수 있도록 __del__ 메서드와 unload_module 드라이버 함수를 추가한 PR을 분석합니다.

#Triton #Runtime #Memory Management #CUDA #HIP

2026년 2월 17일

[논문리뷰] Context Forcing: Consistent Autoregressive Video Generation with Long Context

이 논문은 현재 자동회귀 비디오 생성 모델들이 짧은 컨텍스트 윈도우와 학생-교사 불일치로 인해 장기적인 일관성(forgetting-drifting dilemma)을 유지하기 어렵다는 문제를 해결하고자 합니다.

#Review #Video Generation #Autoregressive Models #Long Context #Temporal Consistency #Diffusion Models #Context Forcing #Memory Management #Distribution Matching Distillation

2026년 2월 5일

[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.

#Review #LLM Agents #Test-Time Improvement #Diagnostic Evaluation #Trajectory Analysis #Performance Metrics #Behavior Adaptation #Memory Management #POMDP

2026년 2월 4일

[Grafana Loki] Allocator에 동시 접근 감지를 추가하여 메모리 안전성 확보

Arena 스타일 메모리 Allocator에 atomic CAS 기반 동시 접근 감지를 추가하여, 고루틴 간 경합 시 즉시 panic으로 디버깅을 용이하게 한 분석.

#Grafana Loki #Go #Memory Management #Concurrency #Atomic

2026년 1월 28일

[논문리뷰] Toward Efficient Agents: Memory, Tool learning, and Planning

본 논문은 대규모 언어 모델(LLM) 기반 에이전트 시스템의 실제 배포에 필수적인 효율성 문제를 종합적으로 다루는 것을 목표로 합니다.

#Review #LLM Agents #Agent Efficiency #Memory Management #Tool Learning #AI Planning #Resource Optimization #Cost-Performance Trade-off

2026년 1월 20일

[Loki] 자식 할당자가 반환한 메모리의 조기 해제 방지

Grafana Loki의 메모리 할당자에서 자식 할당자가 부모에게 반환한 메모리가 부모의 Reset 시 Go 런타임으로 조기 해제되는 버그를 3상태 비트맵 도입으로 수정한 PR을 분석합니다.

#Grafana Loki #Memory Management #Go #Allocator #Bug Fix

2026년 1월 20일

[Loki] 부모-자식 메모리 할당자 도입으로 계층적 메모리 수명 관리

쿼리 엔진의 메모리 할당자에 부모-자식 관계를 추가하여 할당/해제 수명을 계층적으로 관리하는 최적화 분석.

#Loki #Go #Performance #Memory Management #Allocator

2026년 1월 20일

[Grafana Loki] pkg/dataobj를 위한 실험적 arena 스타일 메모리 패키지 도입

메모리 영역을 회수하고 재사용할 수 있는 arena 스타일 Allocator와 비트맵/버퍼 유틸리티를 새로 도입한 분석.

#Grafana Loki #Go #Memory Management #Arena Allocator #Performance #Bitmap

2026년 1월 14일

[논문리뷰] MemoBrain: Executive Memory as an Agentic Brain for Reasoning

본 논문은 도구 증강 에이전트 환경에서 장기적인 추론 과정 중 발생하는 LLM의 유한한 컨텍스트 문제 를 해결하고자 합니다.

#Review #Executive Memory #LLM Agents #Reasoning #Context Management #Tool-Augmented Agents #Memory Management #Trajectory Folding #Preference Optimization

2026년 1월 13일

[논문리뷰] OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent

이 논문은 Vision-Language Model (VLM) 기반 Computer-Using Agents (CUAs) 가 긴 작업 흐름에서 견고성 을 유지하고 새로운 도메인으로 일반화 하는 데 겪는 문제를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agent (CUA)#Multi-Agent Framework #Long-horizon Tasks #Memory Management #Multimodal Retrieval #Reflection #Generalization

2026년 1월 12일

[논문리뷰] InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

본 논문은 실시간 스트리밍 환경에서 3D 시각 기하학 이해 가 확장성과 장기적 안정성이라는 상충되는 요구사항으로 인해 제한되는 문제를 해결하고자 합니다.

#Review #3D Reconstruction #Transformer #Streaming Perception #Memory Management #KV Cache Pruning #Visual Geometry #Temporal Consistency #Continuous Learning

2026년 1월 5일

[논문리뷰] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

이 논문은 AI 에이전트, 특히 LLM 기반 에이전트의 효율적인 메모리 시스템 설계를 위해 인지 신경과학의 통찰력을 통합하는 것을 목표로 합니다.

#Review #Autonomous Agents #Memory Systems #Cognitive Neuroscience #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Memory Management #Multimodal Memory #Agent Skills

2025년 12월 31일

[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입

dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.

#Grafana Loki #Go #Performance #Memory Management #Caching

2025년 12월 19일

[triton] 벤치마크에서 symmetric memory 해제

분산 환경 벤치마크와 테스트에서 각 실행 후 symmetric memory pool을 명시적으로 해제하여 메모리 누수를 방지하도록 개선한 PR을 분석합니다.

#Triton #Benchmark #Distributed #Memory Management

2025년 12월 5일

[논문리뷰] LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

본 논문은 대규모 언어 모델(LLM) 에이전트가 복잡한 소프트웨어 개발 작업을 수행할 때 필요한 실세계 역량을 평가하기 위한 포괄적인 벤치마크, LoCoBench-Agent 를 제안합니다.

#Review #LLM Agents #Software Engineering #Long-Context #Interactive Benchmark #Tool Usage #Memory Management #Bias-Free Evaluation #Multi-Turn

2025년 11월 17일

[Ray Core] 메모리 스토어와 플라즈마 스토어에서 참조 카운터 분리 리팩터링

Ray의 CoreWorker에서 메모리 스토어와 플라즈마 스토어에 결합되어 있던 참조 카운터 로직을 상위 레이어로 분리하여, 코드 얽힘을 해소하고 유지보수성을 개선한 PR을 분석합니다.

#Ray #Ray Core #Refactoring #C++#Memory Management #Reference Counting

2025년 11월 13일

[논문리뷰] Cambrian-S: Towards Spatial Supersensing in Video

본 논문은 현재 멀티모달 대규모 언어 모델(MLLM)이 비디오를 단편적인 프레임으로 처리하고 공간 구조를 제대로 이해하지 못하며, 언어적 기억에 과도하게 의존하는 한계를 지적합니다.

#Review #Spatial Supersensing #Video Understanding #Multimodal LLMs #Predictive Sensing #Memory Management #Event Segmentation #VSI-SUPER #Instruction Tuning

2025년 11월 9일

[논문리뷰] UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

기존 LLM 에이전트 벤치마크가 짧은 호라이즌과 완전 관측 가능한 태스크에 집중하여 실제 복합 태스크에 필수적인 지속적인 추론, 계획, 메모리 관리, 툴 사용 능력 을 충분히 평가하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Long-Horizon Reasoning #Benchmarking #Partially Observable #Tool Use #Memory Management #Exploration

2025년 9월 29일

[논문리뷰] Mixture of Contexts for Long Video Generation

본 논문은 Diffusion Transformer (DiT) 기반의 장시간 비디오 생성 모델에서 발생하는 quadratic cost의 self-attention 문제로 인한 연산 및 메모리 비효율성을 해결하고, 모델이 긴 시퀀스에 걸쳐 일관된 장기 기억 을 유지하면서 표류하거나 붕괴되지 않도록 하는 것을 목표로 합니다.

#Review #Long Video Generation #Diffusion Transformers (DiT)#Sparse Attention #Context Routing #Memory Management #Generative Models #Video Synthesis

2025년 8월 29일

[논문리뷰] Memp: Exploring Agent Procedural Memory

논문은 대규모 언어 모델(LLM) 기반 에이전트가 겪는 취약한 절차적 메모리 문제를 해결하고, 에이전트에게 학습 가능하고 업데이트 가능한 평생 절차적 메모리 를 부여하는 것을 목표로 합니다. 이를 통해 에이전트의 성공률을 높이고 유사 작업에 대한 실행 효율성 을 개선하고자 합니다.

#Review #Procedural Memory #LLM Agents #Memory Management #Task Automation #Lifelong Learning #Experience Replay #Agent Learning

2025년 8월 11일

[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets

기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.

#Review #Autonomous Agents #Large Language Models #Tool Use #Reinforcement Learning #Memory Management #Tool Retrieval #Agentic Reasoning

2025년 10월 27일

[논문리뷰] Artificial Hippocampus Networks for Efficient Long-Context Modeling

본 논문은 RNN의 효율적인 고정 크기 메모리와 Transformer의 손실 없는 확장 가능 메모리 사이의 근본적인 트레이드오프를 해결하여, 장문 컨텍스트 모델링에서 효율성과 정확도를 동시에 달성하는 것을 목표로 합니다.

#Review #Long-Context Modeling #Transformer #RNN #Memory Management #Self-Distillation #Attention Mechanism #Artificial Hippocampus Networks #Cognitive Science

2025년 10월 9일

[논문리뷰] REPAIR: Robust Editing via Progressive Adaptive Intervention and Reintegration

본 논문은 대규모 언어 모델(LLMs)의 사후 훈련 과정에서 발생하는 높은 비용, 의도치 않은 부작용, 순차적 편집의 불안정성 및 제한된 일반화 문제들을 해결하고자 합니다.

#Review #Model Editing #Lifelong Learning #LLMs #Continual Learning #Knowledge Distillation #Error Feedback #Memory Management #Parameter Merging

2025년 10월 6일

[논문리뷰] Mem-α: Learning Memory Construction via Reinforcement Learning

대규모 언어 모델(LLM) 에이전트의 제한된 컨텍스트 윈도우 문제를 해결하기 위해, 기존의 외부 메모리 시스템이 사전에 정의된 규칙에만 의존하여 메모리 구축이 최적화되지 못하는 한계를 극복하는 것이 목표입니다.

#Review #LLM Agents #External Memory #Reinforcement Learning #Memory Management #Long-Context Understanding #Tool Learning #RAG #Memory Architecture

2025년 10월 1일