[논문리뷰] Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients본 논문은 소형 모델(Small-scale Student)의 지식 전달(Knowledge Transfer) 시 발생하는 일반화 성능 저하 및 강화학습의 비효율성 문제를 해결하고자 합니다.#Review#ZPPO#Reinforcement Learning#Knowledge Distillation#Prompt Engineering#VLM#LLM#Policy Gradient#Zone of Proximal Development2026년 6월 16일댓글 수 로딩 중