[vllm] vLLM의 분산 추론 성능 극대화: 양방향 KV 캐시 전송을 통한 Prefill 최적화Prefill 노드와 Decode 노드 간의 양방향 KV 캐시 전송을 통해 중복 계산을 제거하고 멀티턴 대화 성능을 2배 이상 향상시킵니다.#vLLM#LLM#DistributedInference#KVCache#PerformanceOptimization2026년 4월 30일댓글 수 로딩 중
[논문리뷰] STream3R: Scalable Sequential 3D Reconstruction with Causal Transformer논문은 기존 다중 뷰 3D 재구성 방법론들이 높은 연산 비용을 요구하거나 시퀀스 길이에 따라 확장성이 떨어지는 문제를 해결하고자 합니다.#Review#3D Reconstruction#Causal Transformer#Sequential Modeling#Streaming Data#Pointmap Prediction#Online Perception#KVCache2025년 8월 15일댓글 수 로딩 중