[논문리뷰] DeepSearch: Overcome the Bottleneck of Reinforcement Learning with Verifiable Rewards via Monte Carlo Tree Search논문은 LLM의 추론 능력 향상을 위한 Verifiable Rewards 기반의 강화 학습(RLVR) 에서 발생하는 훈련 정체(training plateaus) 및 불충분한 탐색(insufficient exploration) 문제를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning with Verifiable Rewards (RLVR)#Monte Carlo Tree Search (MCTS)#Mathematical Reasoning#Large Language Models (LLMs)#Systematic Exploration#Adaptive Training#Tree-GRPO2025년 10월 2일댓글 수 로딩 중