[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.#Review#RLVR#LLMs#Reasoning#Judge-then-Generate#Quality-Efficiency#Discriminative Supervision#Mathematical Reasoning#Backtracking Reduction2026년 1월 13일댓글 수 로딩 중