[Gradio] MCP 도구 호출 레이턴시 개선 — HTTP 루프백 제거non-queued MCP 이벤트에서 HTTP 루프백을 제거하고 process_api()를 직접 호출하여 레이턴시를 대폭 줄인다#Gradio#MCP#Latency Optimization#Python2026년 3월 6일댓글 수 로딩 중
[논문리뷰] Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language ModelsarXiv에 게시된 'Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Small Language Models (SLMs)#Latency Optimization#Hybrid Architectures#Evolutionary Search#Weight Normalization#Efficient Attention#Depth-Width Ratios#Real-device Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] LiteStage: Latency-aware Layer Skipping for Multi-stage ReasoningarXiv에 게시된 'LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Layer Skipping#Multi-stage Reasoning#Latency Optimization#Early Exit#Small Language Models (LLMs)#Adaptive Computation#Confidence-based Decoding2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Thai Semantic End-of-Turn Detection for Real-Time Voice AgentsMonthol Charattrakool이 arXiv에 게시한 'Thai Semantic End-of-Turn Detection for Real-Time Voice Agents' 논문에 대한 자세한 리뷰입니다.#Review#End-of-Turn Detection#Thai NLP#Voice Agents#Real-time Inference#Transformer Models#Few-shot Learning#Fine-tuning#Latency Optimization2025년 10월 7일댓글 수 로딩 중