[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
링크: 논문 PDF로 바로 열기
메타데이터
저자: Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen
1. Key Terms & Definitions (핵심 용어 및 정의)
- Streaming Reasoning: 입력 데이터가 정적인 전체 문맥(static context)이 아닌 연속적인 스트림(continuous stream)으로 들어올 때, 입력을 읽으면서 동시에 추론을 수행하는 패러다임.
- HRPO (Hierarchical Relative Policy Optimization): 기존의 GRPO를 확장하여, 스트리밍 단계(streaming phase)와 심층 추론 단계(deep reasoning phase)의 시간적 구조에 따라 차별화된 Advantage를 할당하는 정책 최적화 기법.
- Adaptive Thinking Reward: 모델이 추론 시 연산 효율성, 정확도, 구조적 유효성(format)을 고려하여 적절한 컴퓨팅 자원을 할당하도록 유도하는 보상 체계.
- Read-then-think: 입력을 모두 수신한 후에야 비로소 추론을 시작하는 전통적인 LLM 추론 방식.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다. 특히 기존 강화 학습 기반 기법인 GRPO는 전체 시퀀스에 대해 일괄적인 Advantage를 할당하므로, 스트리밍 단계의 로컬 정보와 심층 추론 단계의 글로벌 정보를 구분하지 못하는 '시간적 신용 할당(temporal credit assignment)' 문제를 겪는다 [Figure 1]. 이러한 한계로 인해 스트리밍 추론 효율성이 저하되거나 불필요한 연산이 발생하는 문제가 존재한다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
AdaSR은 입력을 읽는 동안 추론할지, 건너뛸지(skip), 또는 최종 심층 분석을 수행할지를 결정하는 컴퓨팅 정책을 학습한다 [Figure 1]. 저자들은 이를 위해 HRPO를 도입하여 스트리밍-로컬, 심층-로컬, 그리고 전체 궤적(trajectory) 수준에서 정교한 Advantage를 분리하여 할당한다. 또한, 정확도(Accuracy), 포맷(Format), 그리고 지연 시간(Latency)을 고려한 Adaptive Thinking Reward를 설계하여 모델의 연산 할당을 최적화한다. 실험 결과, AdaSR-HRPO는 Qwen3-1.7B 및 4B 모델에서 기존 SFT 베이스라인 및 GRPO 대비 우수한 정확도와 효율성을 입증했다 [Table 1]. 특히 GSM-symbolic P2 벤치마크에서 Qwen3-1.7B 기준 정확도를 4.0% 향상시키고 스트리밍 단계의 토큰 길이를 10.9% 감소시키는 등 정량적 비교 우위를 확보했다 [Table 2]. 이는 제안된 HRPO의 계층적 할당 방식이 스트리밍 추론의 복잡성을 효과적으로 해결함을 시사한다.
4. Conclusion & Impact (결론 및 시사점)
본 논문은 스트리밍 추론의 구조적 특성을 반영한 HRPO를 통해 모델의 적응형 컴퓨팅 성능을 획기적으로 개선하였다. 이 연구는 실시간 데이터 처리와 복잡한 추론 작업이 결합된 환경에서 효율적인 연산 자원 배분 전략을 제시하였다는 점에서 큰 의의가 있다. 향후 학계와 산업계에서 스트리밍 데이터 기반의 실시간 에이전트 시스템을 구축할 때 중요한 방법론적 토대가 될 것으로 기대된다.
Part 2: 중요 Figure 정보

Figure 1 — AdaSR 프레임워크 개요

Table 1 — 모델 성능 비교 결과

Table 2 — Advantage 할당 분석
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control
- [논문리뷰] Think Anywhere in Code Generation
- [논문리뷰] FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization
- [논문리뷰] The Art of Efficient Reasoning: Data, Reward, and Optimization
- [논문리뷰] Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
Review 의 다른글
- 이전글 [논문리뷰] ActiveMimic: Egocentric Video Pretraining with Active Perception
- 현재글 : [논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization
- 다음글 [논문리뷰] AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models
댓글