[논문리뷰] Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization본 논문은 온라인 RL 기반 LLM 학습 시 발생하는 탐색-활용 불균형(imbalanced exploration–exploitation trade-off) 문제를 해결하고자 합니다.#Review#Online Reinforcement Learning#Information Bottleneck#Tree-based Policy Optimization#Exploration-Exploitation Balance#LLM Reasoning#IB-Score2026년 5월 27일댓글 수 로딩 중