#IB-Score

1개의 포스트

[논문리뷰] Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization

본 논문은 온라인 RL 기반 LLM 학습 시 발생하는 탐색-활용 불균형(imbalanced exploration–exploitation trade-off) 문제를 해결하고자 합니다.

#Review #Online Reinforcement Learning #Information Bottleneck #Tree-based Policy Optimization #Exploration-Exploitation Balance #LLM Reasoning #IB-Score

2026년 5월 27일