#Influence Functions

1개의 포스트

[논문리뷰] Data-Efficient RLVR via Off-Policy Influence Guidance

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 Verifiable Rewards를 사용한 강화 학습(RLVR) 에서 데이터 선택의 비효율성을 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning with Verifiable Rewards (RLVR)#Influence Functions #Data Selection #Off-Policy Learning #Curriculum Learning #Large Language Models (LLMs)#Sparse Random Projection #Data Efficiency

2025년 11월 9일