#Hierarchical Relative Policy Optimization

1개의 포스트

[논문리뷰] AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

본 논문은 실시간 스트리밍 환경에서 LLM이 적응형으로 추론하도록 최적화하는 AdaSR 프레임워크를 제안한다. 기존의 스트리밍 추론 연구들은 주로 감독 학습(Supervised Fine-tuning)에 의존하고 있어, 모델이 다양한 입력 상황에 맞춰 능동적으로 추론 여부를 결정하는 유연성이 부족하다.

#Review #Streaming Reasoning #Reinforcement Learning #Hierarchical Relative Policy Optimization #Adaptive Computation #Large Language Models #Chain-of-Thought

2026년 6월 14일