[논문리뷰] CoBA-RL: Capability-Oriented Budget Allocation for Reinforcement Learning in LLMs논문은 LLM 추론을 강화하는 RLVR(Reinforcement Learning with Verifiable Rewards) 프레임워크에서 GRPO(Group Relative Policy Optimization) 와 같은 기존 방법론의 비효율적인 균일 롤아웃 예산 할당 문제를 해결하고자 합니다.#Review#Reinforcement Learning#LLMs#Budget Allocation#Adaptive Learning#Capability-Oriented Value Function#Exploration-Exploitation#Resource Efficiency2026년 2월 3일댓글 수 로딩 중