#Instruction Purification

1개의 포스트

[논문리뷰] Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification

대규모 언어 모델(LLM) 추론을 위한 RLVR (Reinforcement Learning with Verifiable Rewards) 의 비효율적인 탐색 문제를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #LLM Reasoning #Instruction Purification #Interference Tokens #Sample Efficiency #Policy Optimization #Verifiable Rewards

2026년 2월 3일