[논문리뷰] Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies본 논문은 기존 RL 접근 방식이 LLM을 단일 블랙박스 정책으로 취급하는 한계를 극복하고자 합니다.#Review#Reinforcement Learning#Large Language Models#Policy Optimization#Interpretability#Transformer#Internal Policy#Entropy Analysis2025년 12월 23일댓글 수 로딩 중