[논문리뷰] Black-Box On-Policy Distillation of Large Language Models본 논문은 내부 로짓이나 파라미터에 접근할 수 없는 블랙박스(black-box) 대규모 언어 모델(LLM) 을 대상으로, 학생 모델이 교사 모델의 텍스트 출력만을 학습하는 온-정책(on-policy) 증류(distillation) 방법을 개발하는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Knowledge Distillation (KD)#Black-box Distillation#Generative Adversarial Networks (GANs)#On-policy Learning#Reinforcement Learning#Minimax Game#Model Compression2025년 11월 13일댓글 수 로딩 중