#Teacher Cache

1개의 포스트

[논문리뷰] AsyncOPD: How Stale Can On-Policy Distillation Be?

본 논문은 LLM 사후 학습에서 OPD가 겪는 On-policy systems bottleneck 문제를 해결하기 위해 비동기식 학습 파이프라인의 도입 필요성을 제기한다. 기존의 동기식 학습은 rollout 생성이 완료될 때까지 학습기를 대기시켜 하드웨어 활용률을 저하시킨다.

#Review #On-policy Distillation #Asynchronous RL #Reverse KL #Staleness #Teacher Cache #Multi-sample MC #Large Language Model

2026년 6월 29일