[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다.#Review#Streaming Reasoning#Reinforcement Learning#Hierarchical Relative Policy Optimization#Adaptive Computation#Large Language Models#Chain-of-Thought2026년 6월 14일댓글 수 로딩 중