[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.#Review#Speculative Decoding#Pipeline Parallelism#LLM Inference#Feature Aggregation#Latency Hiding#Throughput2026년 6월 1일댓글 수 로딩 중
[논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving본 논문은 End-to-End Autonomous Driving을 위한 Vision-Language-Action (VLA) 모델이 직면한 High-Fidelity Trajectory Planning과 Efficient Inference 간의 상충 관계 문제를 해결하고자 합니다.#Review#Autonomous Driving#VLM#Block-Diffusion#Inference Efficiency#Trajectory Planning#Scaffold Speculative Decoding#Latency#Throughput2026년 5월 27일댓글 수 로딩 중
[sglang] run_eval에 latency 및 throughput 메트릭 추가평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능#SGLang#Evaluation#Metrics#Throughput2026년 4월 1일댓글 수 로딩 중
[논문리뷰] ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection기존의 Time-Series Anomaly Detection(TSAD) 연구들은 주로 workstation-class hardware에서 unconstrained execution 환경 하에 detection quality(주로 accuracy)만을 비교하고 최적화했습니다.#Review#Time-series anomaly detection#Deployment-oriented evaluation#Compute reduction#CPU parallelism#Throughput#Latency#Automotive telemetry#AUC-PR2026년 3월 15일댓글 수 로딩 중
[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.#Ray#Ray Data#Resource Allocation#Pipeline Optimization#Throughput#Performance2026년 2월 27일댓글 수 로딩 중
[논문리뷰] SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs본 논문은 대규모 언어 모델(LLM)의 장문맥(long-context) 추론 시 발생하는 Key-Value (KV) 캐시 관련 문제를 해결하는 것을 목표로 합니다.#Review#LLMs#Long-context Reasoning#KV Cache Optimization#Speculative Sparsity#Knowledge Distillation#Adaptive Memory Management#Throughput2025년 12월 1일댓글 수 로딩 중