[논문리뷰] UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification본 논문은 기존의 prefill 가속 기법들이 최신 하이브리드 LLM 아키텍처와 연속 배치(continuous batching) 환경에 부적합하다는 문제를 해결합니다.#Review#Long-Context LLM#Prefill Acceleration#Dynamic Sparsification#Hybrid Architectures#Continuous Batching#vLLM2026년 5월 10일댓글 수 로딩 중
[SGLang] Continuous Batching & Chunked Prefill: 동적 배칭의 핵심SGLang의 Continuous Batching과 Chunked Prefill을 분석한다. 요청이 끝나는 즉시 새 요청을 채우는 동적 배칭, 긴 프롬프트를 청크 단위로 분할하는 전략을 코드와 함께 살펴본다.#sglang#Continuous Batching#Chunked Prefill#Dynamic Batching2026년 4월 10일댓글 수 로딩 중