[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the PrincipalsRLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.#Review#Reinforcement Learning#Large Language Models#Parameter-Efficient Fine-Tuning#Optimization Bias#Spectral Geometry#Model Sparsity#LoRA2025년 11월 11일댓글 수 로딩 중