#Throughput

6개의 포스트

[논문리뷰] Speculative Pipeline Decoding: Higher-Accruacy and Zero-Bubble Speculation via Pipeline Parallelism

본 논문은 기존 Speculative Decoding의 핵심인 다중 토큰 예측(Multi-token prediction) 방식이 갖는 구조적 한계를 극복하고자 합니다.

#Review #Speculative Decoding #Pipeline Parallelism #LLM Inference #Feature Aggregation #Latency Hiding #Throughput

2026년 6월 1일

[논문리뷰] Fast-dDrive: Efficient Block-Diffusion VLM for Autonomous Driving

본 논문은 End-to-End Autonomous Driving을 위한 Vision-Language-Action (VLA) 모델이 직면한 High-Fidelity Trajectory Planning과 Efficient Inference 간의 상충 관계 문제를 해결하고자 합니다.

#Review #Autonomous Driving #VLM #Block-Diffusion #Inference Efficiency #Trajectory Planning #Scaffold Speculative Decoding #Latency #Throughput

2026년 5월 27일

[sglang] run_eval에 latency 및 throughput 메트릭 추가

평가 프레임워크에 completion token 기반 output throughput과 latency 메트릭을 추가하여 성능 추적 가능

#SGLang #Evaluation #Metrics #Throughput

2026년 4월 1일

[논문리뷰] ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection

기존의 Time-Series Anomaly Detection(TSAD) 연구들은 주로 workstation-class hardware에서 unconstrained execution 환경 하에 detection quality(주로 accuracy)만을 비교하고 최적화했습니다.

#Review #Time-series anomaly detection #Deployment-oriented evaluation #Compute reduction #CPU parallelism #Throughput #Latency #Automotive telemetry #AUC-PR

2026년 3월 15일

[Ray] 파이프라인 최적 처리량 계산 유틸리티 함수 추가

Ray Data에 파이프라인 연산자별 처리 속도와 리소스 제약을 기반으로 최적 처리량과 리소스 할당을 계산하는 유틸리티 함수를 추가한 PR 분석.

#Ray #Ray Data #Resource Allocation #Pipeline Optimization #Throughput #Performance

2026년 2월 27일

[논문리뷰] SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs

본 논문은 대규모 언어 모델(LLM)의 장문맥(long-context) 추론 시 발생하는 Key-Value (KV) 캐시 관련 문제를 해결하는 것을 목표로 합니다.

#Review #LLMs #Long-context Reasoning #KV Cache Optimization #Speculative Sparsity #Knowledge Distillation #Adaptive Memory Management #Throughput

2025년 12월 1일