[논문리뷰] AsyncOPD: How Stale Can On-Policy Distillation Be?본 논문은 LLM 사후 학습에서 OPD가 겪는 On-policy systems bottleneck 문제를 해결하기 위해 비동기식 학습 파이프라인의 도입 필요성을 제기한다. 기존의 동기식 학습은 rollout 생성이 완료될 때까지 학습기를 대기시켜 하드웨어 활용률을 저하시킨다.#Review#On-policy Distillation#Asynchronous RL#Reverse KL#Staleness#Teacher Cache#Multi-sample MC#Large Language Model2026년 6월 29일댓글 수 로딩 중