[논문리뷰] SG-OPD: Sign-Gated On-Policy Distillation via Sign-Consistency Gating and Phased Teacher Sampling본 연구는 기존의 Off-policy Distillation이 지닌 데이터 고립성 문제와 Teacher-Student 간의 Distribution Mismatch를 해결하는 데 초점을 맞춥니다.#Review#Knowledge Distillation#On-Policy Learning#Sign-Consistency#Phased Teacher Sampling#Large Language Models#Model Alignment2026년 6월 11일댓글 수 로딩 중
[논문리뷰] UniSD: Towards a Unified Self-Distillation Framework for Large Language Models본 논문은 기존 LLM의 post-training 과정이 외부 모델에 지나치게 의존함으로써 발생하는 비용 문제와 보안 위험을 해결하기 위해 UniSD라는 통일된 Self-Distillation 프레임워크를 제안합니다.#Review#Self-Distillation#Large Language Models#On-Policy Learning#Supervision Reliability#Representation Alignment#Training Stability2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Online Experiential Learning for Language Models현재 대규모 언어 모델(LLM) 개선 패러다임은 주로 offline training에 의존하며, 인간 annotation 또는 simulated environment를 활용합니다. 그러나 이러한 방식은 실제 배포 환경에서 축적되는 풍부한 경험을 전혀 활용하지 못한다는 근본적인 한계가 있습니다.#Review#Online Experiential Learning (OEL)#Context Distillation#Language Models#Reward-Free Learning#Catastrophic Forgetting#Token Efficiency#On-Policy Learning2026년 3월 17일댓글 수 로딩 중
[논문리뷰] On-Policy Self-Distillation for Reasoning Compression본 논문은 대규모 언어 모델(LLM)이 추론 과정에서 생성하는 불필요하고 과도한 토큰으로 인한 비효율성 및 오류 누적 문제 를 해결하고자 합니다. 정답 데이터나 토큰 예산 같은 외부 제약 없이 모델 스스로 간결하게 추론하도록 학습시켜, 추론 과정의 압축과 동시에 정확도를 향상시키는 방법론을 제안합니다.#Review#Reasoning Compression#Self-Distillation#On-Policy Learning#Large Language Models#Mathematical Reasoning#Knowledge Distillation#Efficient Inference2026년 3월 5일댓글 수 로딩 중