[논문리뷰] DSDR: Dual-Scale Diversity Regularization for Exploration in LLM ReasoningLLM 추론을 위한 RLVR 훈련에서 발생하는 제한적인 탐색(limited exploration) 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 불충분한 로컬 무작위성이나 단일 스케일 다양성 조절에 그쳐 정책이 소수의 추론 패턴으로 수렴하고 깊은 탐색이 조기에 중단되는 문제를 극복하고자 합니다.#Review#Large Language Models (LLM)#Reinforcement Learning with Verifiers (RLVR)#Exploration#Diversity Regularization#Dual-Scale#Reasoning#Policy Optimization2026년 2월 23일댓글 수 로딩 중