#Supervision Reliability

1개의 포스트

[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models

본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.

#Review #Self-Distillation #Large Language Models #On-Policy Learning #Supervision Reliability #Representation Alignment #Training Stability

2026년 5월 10일