#ZPPO

1개의 포스트

[논문리뷰] Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

본 논문은 소형 모델(Small-scale Student)의 지식 전달(Knowledge Transfer) 시 발생하는 일반화 성능 저하 및 강화학습의 비효율성 문제를 해결하고자 합니다.

#Review #ZPPO #Reinforcement Learning #Knowledge Distillation #Prompt Engineering #VLM #LLM #Policy Gradient #Zone of Proximal Development

2026년 6월 16일