[논문리뷰] RelayGen: Intra-Generation Model Switching for Efficient Reasoning대규모 추론 모델(LRMs)의 긴 추론 과정에서 발생하는 불균일한 생성 난이도 문제를 해결하여, 상당한 정확도 저하 없이 추론 지연 시간을 줄이는 것 을 목표로 합니다.#Review#LLM Inference Optimization#Model Switching#Efficient Reasoning#Speculative Decoding#Runtime Adaptation#Discourse-Level Cues#Latency Reduction2026년 2월 9일댓글 수 로딩 중