#Latency Optimization

4개의 포스트

[Gradio] MCP 도구 호출 레이턴시 개선 — HTTP 루프백 제거

non-queued MCP 이벤트에서 HTTP 루프백을 제거하고 process_api()를 직접 호출하여 레이턴시를 대폭 줄인다

#Gradio #MCP #Latency Optimization #Python

2026년 3월 6일

[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

본 논문은 소형 언어 모델(SLM) 의 효율적인 배포를 저해하는 실기기 지연 시간 문제를 해결하고, 지연 시간 최적화된 SLM 설계 및 훈련을 위한 일반화 가능한 원칙과 방법론을 제시하는 것을 목표로 합니다.

#Review #Small Language Models (SLMs)#Latency Optimization #Hybrid Architectures #Evolutionary Search #Weight Normalization #Efficient Attention #Depth-Width Ratios #Real-device Efficiency

2025년 11월 30일

[논문리뷰] LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

본 연구는 소규모 LLM에서 다단계 추론 시 발생하는 높은 레이턴시 문제를 해결하고자 합니다.

#Review #Layer Skipping #Multi-stage Reasoning #Latency Optimization #Early Exit #Small Language Models (LLMs)#Adaptive Computation #Confidence-based Decoding

2025년 10월 17일

[논문리뷰] Thai Semantic End-of-Turn Detection for Real-Time Voice Agents

이 논문은 실시간 음성 에이전트를 위한 태국어 텍스트 전용 EOT(End-of-Turn) 감지 에 대한 최초의 체계적인 연구를 수행하는 것을 목표로 합니다.

#Review #End-of-Turn Detection #Thai NLP #Voice Agents #Real-time Inference #Transformer Models #Few-shot Learning #Fine-tuning #Latency Optimization

2025년 10월 7일