[논문리뷰] Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey본 설문조사는 대규모 언어 모델(LLM)의 급증에 따라 발생하는 추론 시간의 효율성 및 최적 모델 선택의 필요성을 해결하고자 합니다.#Review#LLM Inference#Model Routing#Model Cascading#Efficiency Optimization#Dynamic Model Selection#Multi-LLM Systems#Cost-Performance Trade-off#Adaptive AI Systems2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Cache-to-Cache: Direct Semantic Communication Between Large Language Models본 연구는 기존 멀티-LLM 시스템에서 텍스트 기반(Text-to-Text, T2T) 통신 이 야기하는 정보 손실, 모호성, 토큰 단위 생성 지연과 같은 한계를 극복하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Inter-model Communication#KV-Cache#Semantic Transfer#Multi-LLM Systems#Cache Fusion#Latency Reduction#Knowledge Sharing2025년 10월 9일댓글 수 로딩 중