#Model Sparsity

1개의 포스트

[논문리뷰] The Path Not Taken: RLVR Provably Learns Off the Principals

RLVR(Reinforcement Learning with Verifiable Rewards)이 LLM 추론 능력을 크게 향상시키지만, 놀랍게도 소수의 파라미터만 수정 하는 모순을 해결하는 것이 목표입니다.

#Review #Reinforcement Learning #Large Language Models #Parameter-Efficient Fine-Tuning #Optimization Bias #Spectral Geometry #Model Sparsity #LoRA

2025년 11월 11일