#Quality-Efficiency

1개의 포스트

[논문리뷰] JudgeRLVR: Judge First, Generate Second for Efficient Reasoning

본 논문은 대규모 언어 모델(LLM)의 추론 과정에서 RLVR(Reinforcement Learning with Verifiable Rewards) 이 흔히 유발하는 장황하고 비효율적인 탐색 문제를 해결하고자 합니다.

#Review #RLVR #LLMs #Reasoning #Judge-then-Generate #Quality-Efficiency #Discriminative Supervision #Mathematical Reasoning #Backtracking Reduction

2026년 1월 13일