[sglang] [VLM] 멀티모달 임베딩 최적화: 청크 인식 인코딩과 이미지별 캐싱 도입SGLang의 VLM 추론 성능을 획기적으로 개선하는 코드 변경 분석: 청크 인식 인코딩, 이미지별 캐싱, 지연 장치 전송 도입.#VLM#Optimization#SGLang#Multimodal#Caching#Performance2026년 4월 4일댓글 수 로딩 중
[sglang] NPU CI 최적화: PyTorch 의존성 캐싱으로 설치 속도 개선SGLang NPU CI에서 PyTorch 패키지 설치 시 내부 캐시 서비스를 활용하도록 변경하고, 외부 미러 의존성을 제거한 CI 설정 분석.#SGLang#NPU#CI#GitHub Actions#Caching#Ascend2026년 3월 26일댓글 수 로딩 중
[Ray] Autoscaler V2 스케줄링 최적화: 불가능한 리소스 요청 캐싱으로 O(N²M) 제거동일한 리소스 요청 형태를 캐싱하여 try_schedule 호출을 대폭 줄이고 Autoscaler 행 현상을 해결한 분석.#Ray#Python#Performance#Caching#Autoscaler2026년 3월 13일댓글 수 로딩 중
[Loki] 쿼리 엔진 캐시 정확성 테스트 추가결과 캐시의 정확성을 검증하는 통합 테스트로 캐시 히트/미스 시 동일한 결과를 보장.#Grafana Loki#Go#Performance#Testing#Caching2026년 3월 13일댓글 수 로딩 중
[논문리뷰] SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware CachingAlexandre Alahi이 arXiv에 게시한 'SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Inference Acceleration#Caching#Sensitivity Analysis#Dynamic Caching#Video Generation#Denoising2026년 3월 1일댓글 수 로딩 중
[faster-qwen3-tts] 생성 요청 직렬화 및 모델 캐싱 도입asyncio Lock으로 동시 생성을 방지하고, 로드된 모델을 캐싱하여 모델 전환 시 재로딩을 방지한다#faster-qwen3-tts#TTS#Concurrency#Caching2026년 2월 26일댓글 수 로딩 중
[Ray] Dashboard 죽은 노드 캐시의 변수 섀도잉 버그 수정dead node 캐시 오버플로우 시 evict할 노드 ID가 현재 노드 ID를 섀도잉하여 살아있는 노드가 삭제되는 버그 수정 분석.#Ray#Python#Bug Fix#Dashboard#Caching2026년 2월 23일댓글 수 로딩 중
[pydantic-ai] Temporal/DBOS MCP 서버에서 매번 도구 목록을 다시 가져오는 문제 수정Temporal과 DBOS의 MCP 래퍼에서 캐시된 도구 정의를 활용하여 불필요한 MCP 서버 왕복을 제거한 사례를 분석합니다.#pydantic-ai#MCP#DBOS#Temporal#Caching#Performance2026년 2월 19일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델 캐싱 기능 RevertPyTorch CI에서 TIMM pretrained 모델을 공유 HF 캐시에 저장하는 기능을 도입했다가, 문제 발생으로 원복한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#Revert2026년 2월 16일댓글 수 로딩 중
[Open WebUI] 모델 캐시 활용으로 TTFT(첫 토큰 도달 시간) 대폭 단축매 채팅 요청마다 모든 백엔드에서 모델 목록을 가져오던 get_all_models() 호출을 캐시 우선 조회로 변경하여 TTFT를 크게 개선한 PR을 분석합니다.#Open WebUI#Performance#Python#TTFT#Caching2026년 2월 12일댓글 수 로딩 중
[Ray Serve] AutoscalingPolicy의 cloudpickle 역직렬화 결과 캐싱매 오토스케일링 틱마다 반복되던 cloudpickle.loads()를 캐싱하여 8배 속도 향상.#Ray#Python#Performance#Serve#Caching2026년 2월 9일댓글 수 로딩 중
[pytorch] CI: TIMM pretrained 모델을 공유 HF 캐시에 캐싱하여 CI 속도 개선PyTorch CI에서 TIMM pretrained 모델 가중치를 공유 HuggingFace 캐시 디렉토리에서 탐지하고, 미캐싱 시에만 온라인 다운로드를 활성화하는 로직을 추가한 사례를 분석합니다.#PyTorch#CI#TIMM#HuggingFace#Caching#GitHub Actions2026년 2월 9일댓글 수 로딩 중
[pydantic-ai] Bedrock CachePoint가 여러 trailing 문서 사이에 잘못 배치되는 버그 수정AWS Bedrock에서 복수의 문서/비디오가 연속될 때 CachePoint가 마지막 문서 앞이 아닌 전체 그룹 앞에 올바르게 배치되도록 수정한 사례를 분석합니다.#pydantic-ai#AWS Bedrock#Caching#Bug Fix#Refactoring2026년 2월 5일댓글 수 로딩 중
[Loki] Partition Ring 셔플 샤딩 캐시 크기를 설정 플래그로 추출하드코딩된 셔플 샤딩 캐시 크기를 런타임 설정 플래그로 추출하여 테넌트 수에 따라 조정 가능하게 만든 분석.#Loki#Go#Performance#Configuration#Caching2026년 1월 21일댓글 수 로딩 중
[Loki] Thor 쿼리 엔진 메모리 최적화 Part 2: 식별자 캐싱과 빌더 ReserveFQN 파싱 결과를 캐싱하고 Arrow 빌더에 Reserve를 적용하여 실행 시간 7%, 메모리 할당 12% 절감한 분석.#Loki#Go#Performance#Memory Allocation#Caching2026년 1월 21일댓글 수 로딩 중
[pydantic-ai] 스트리밍에서 중복 도구 호출 방지 및 결과 캐싱 추가partial_output=False일 때 stream_output/stream_text/get_output의 반복 호출 시 중복 검증과 도구 호출을 방지하기 위한 결과 캐싱을 추가한 사례를 분석합니다.#pydantic-ai#Streaming#Caching#Bug Fix#Output Validation2025년 12월 27일댓글 수 로딩 중
[논문리뷰] HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated StreamingarXiv에 게시된 'HiStream: Efficient High-Resolution Video Generation via Redundancy-Eliminated Streaming' 논문에 대한 자세한 리뷰입니다.#Review#High-Resolution Video Generation#Diffusion Models#Autoregressive#Efficiency#Caching#Attention Mechanisms#Video Streaming#Temporal Consistency2025년 12월 24일댓글 수 로딩 중
[Loki] Partition Ring Shuffle Sharding에 LRU 캐시 도입dskit 업데이트로 partition ring shuffle shard 캐시에 LRU 기반 바운디드 메모리 관리 추가.#Grafana Loki#Go#Performance#Memory Management#Caching2025년 12월 19일댓글 수 로딩 중
[논문리뷰] Accelerating Streaming Video Large Language Models via Hierarchical Token CompressionarXiv에 게시된 'Accelerating Streaming Video Large Language Models via Hierarchical Token Compression' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video LLMs#Token Compression#ViT Encoding#LLM Prefilling#Causal Compression#Caching#Pruning#Low-latency2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Fast3Dcache: Training-free 3D Geometry Synthesis AccelerationarXiv에 게시된 'Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration' 논문에 대한 자세한 리뷰입니다.#Review#3D Geometry Synthesis#Diffusion Models#Acceleration#Caching#Training-free#Flow Matching#Voxel Stabilization#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[pydantic-ai] anthropic_cache_messages 설정 추가 및 캐시 포인트 자동 제한메시지 자동 캐싱과 Anthropic의 4-캐시-포인트 제한을 자동으로 관리하는 기능 추가#Python#Pydantic AI#Anthropic#Feature#Caching2025년 11월 25일댓글 수 로딩 중
[pydantic-ai] Anthropic 캐시 가능 타입에 document 추가Anthropic prompt caching에서 document 타입이 누락되어 캐시가 적용되지 않던 문제를 수정#Python#Pydantic AI#Anthropic#Bug Fix#Caching2025년 11월 21일댓글 수 로딩 중
[pydantic-ai] CachePoint에 TTL 옵션 추가 — Anthropic 1시간 캐시 지원Anthropic prompt caching의 TTL을 5분과 1시간 중 선택할 수 있도록 CachePoint와 모델 설정을 확장#Python#Pydantic AI#Anthropic#Feature#Caching2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Fast-dLLM v2: Efficient Block-Diffusion LLMarXiv에 게시된 'Fast-dLLM v2: Efficient Block-Diffusion LLM' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion LLMs#Inference Acceleration#Parallel Decoding#Autoregressive Models#Caching#Fine-tuning#Block-wise Attention2025년 10월 8일댓글 수 로딩 중