#Caching

24개의 포스트

[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입

SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.

#VLM #Optimization #SGLang #Multimodal #Caching #Performance

2026년 4월 4일

[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선

SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.

#SGLang #NPU #CI #GitHub Actions #Caching #Ascend

2026년 3월 26일

[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거

동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.

#Ray #Python #Performance #Caching #Autoscaler

2026년 3월 13일

[Loki] 쿼리 엔진 캐시 정확성 테스트 추가

결과 캐시의 정확성을 검증하는 통합 테스트로 캐시 히트/미스 시 동일한 결과를 보장.

#Grafana Loki #Go #Performance #Testing #Caching

2026년 3월 13일

[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Alexandre Alahi이 arXiv에 게시한 'SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion Models #Inference Acceleration #Caching #Sensitivity Analysis #Dynamic Caching #Video Generation #Denoising

2026년 3월 1일

[faster-qwen3-tts] 생성 요청 직렬화 및 모델 캐싱 도입

asyncio Lock으로 동시 생성을 방지하고, 로드된 모델을 캐싱하여 모델 전환 시 재로딩을 방지한다

#faster-qwen3-tts #TTS #Concurrency #Caching

2026년 2월 26일

[Ray] Dashboard 죽은 노드 캐시의 변수 섀도잉 버그 수정

dead node 캐시 오버플로우 시 evict할 노드 ID가 현재 노드 ID를 섀도잉하여 살아있는 노드가 삭제되는 버그 수정 분석.

#Ray #Python #Bug Fix #Dashboard #Caching

2026년 2월 23일

[pydantic-ai] Temporal/DBOS MCP 서버에서 매번 도구 목록을 다시 가져오는 문제 수정

Temporal과 DBOS의 MCP 래퍼에서 캐시된 도구 정의를 활용하여 불필요한 MCP 서버 왕복을 제거한 사례를 분석합니다.

#pydantic-ai #MCP #DBOS #Temporal #Caching #Performance

2026년 2월 19일

[pytorch] CI: TIMM pretrained 모델 캐싱 기능 Revert

PyTorch CI에서 TIMM pretrained 모델을 공유 HF 캐시에 저장하는 기능을 도입했다가, 문제 발생으로 원복한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #Revert

2026년 2월 16일

[Open WebUI] 모델 캐시 활용으로 TTFT(첫 토큰 도달 시간) 대폭 단축

매 채팅 요청마다 모든 백엔드에서 모델 목록을 가져오던 get_all_models() 호출을 캐시 우선 조회로 변경하여 TTFT를 크게 개선한 PR을 분석합니다.

#Open WebUI #Performance #Python #TTFT #Caching

2026년 2월 12일

[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱

매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.

#Ray #Python #Performance #Serve #Caching

2026년 2월 9일

[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선

PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.

#PyTorch #CI #TIMM #HuggingFace #Caching #GitHub Actions

2026년 2월 9일

[pydantic-ai] Bedrock CachePoint가 여러 trailing 문서 사이에 잘못 배치되는 버그 수정

AWS Bedrock에서 복수의 문서/비디오가 연속될 때 CachePoint가 마지막 문서 앞이 아닌 전체 그룹 앞에 올바르게 배치되도록 수정한 사례를 분석합니다.

#pydantic-ai #AWS Bedrock #Caching #Bug Fix #Refactoring

2026년 2월 5일

[Loki] Partition Ring 셔플 샤딩 캐시 크기를 설정 플래그로 추출

하드코딩된 셔플 샤딩 캐시 크기를 런타임 설정 플래그로 추출하여 테넌트 수에 따라 조정 가능하게 만든 분석.

#Loki #Go #Performance #Configuration #Caching

2026년 1월 21일

[Loki] Thor 쿼리 엔진 메모리 최적화 Part 2: 식별자 캐싱과 빌더 Reserve

FQN 파싱 결과를 캐싱하고 Arrow 빌더에 Reserve를 적용하여 실행 시간 7%, 메모리 할당 12% 절감한 분석.

#Loki #Go #Performance #Memory Allocation #Caching

2026년 1월 21일

[pydantic-ai] 스트리밍에서 중복 도구 호출 방지 및 결과 캐싱 추가

partial_output=False일 때 stream_output/stream_text/get_output의 반복 호출 시 중복 검증과 도구 호출을 방지하기 위한 결과 캐싱을 추가한 사례를 분석합니다.

#pydantic-ai #Streaming #Caching #Bug Fix #Output Validation

2025년 12월 27일

[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming

arXiv에 게시된 'HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming' 논문에 대한 자세한 리뷰입니다.

#Review #High-Resolution Video Generation #Diffusion Models #Autoregressive #Efficiency #Caching #Attention Mechanisms #Video Streaming #Temporal Consistency

2025년 12월 24일

[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입

dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.

#Grafana Loki #Go #Performance #Memory Management #Caching

2025년 12월 19일

[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

arXiv에 게시된 'Accelerating Streaming Video Large Language Models via Hierarchical Token Compression' 논문에 대한 자세한 리뷰입니다.

#Review #Streaming Video LLMs #Token Compression #ViT Encoding #LLM Prefilling #Causal Compression #Caching #Pruning #Low-latency

2025년 12월 1일

[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration

arXiv에 게시된 'Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration' 논문에 대한 자세한 리뷰입니다.

#Review #3D Geometry Synthesis #Diffusion Models #Acceleration #Caching #Training-free #Flow Matching #Voxel Stabilization #Computational Efficiency

2025년 11월 30일

[pydantic-ai] anthropic_cache_messages 설정 추가 및 캐시 포인트 자동 제한

메시지 자동 캐싱과 Anthropic의 4-캐시-포인트 제한을 자동으로 관리하는 기능 추가

#Python #Pydantic AI #Anthropic #Feature #Caching

2025년 11월 25일

[pydantic-ai] Anthropic 캐시 가능 타입에 document 추가

Anthropic prompt caching에서 document 타입이 누락되어 캐시가 적용되지 않던 문제를 수정

#Python #Pydantic AI #Anthropic #Bug Fix #Caching

2025년 11월 21일

[pydantic-ai] CachePoint에 TTL 옵션 추가 — Anthropic 1시간 캐시 지원

Anthropic prompt caching의 TTL을 5분과 1시간 중 선택할 수 있도록 CachePoint와 모델 설정을 확장

#Python #Pydantic AI #Anthropic #Feature #Caching

2025년 11월 18일

[논문리뷰] Fast-dLLM v2: Efficient Block-Diffusion LLM

arXiv에 게시된 'Fast-dLLM v2: Efficient Block-Diffusion LLM' 논문에 대한 자세한 리뷰입니다.

#Review #Diffusion LLMs #Inference Acceleration #Parallel Decoding #Autoregressive Models #Caching #Fine-tuning #Block-wise Attention

2025년 10월 8일