[논문리뷰] The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs본 논문은 LLM의 On-policy Distillation 과정에서 발생하는 reward extrapolation의 한계점을 해결하고자 한다.#Review#On-policy Distillation#Reward Extrapolation#Structured Output#Format Adherence#Importance Sampling#LLM2026년 5월 13일댓글 수 로딩 중
[논문리뷰] HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents본 논문은 모달리티 적응형 컴퓨팅을 위한 MoT 아키텍처와 비전-언어 연결을 강화하는 Visual Latent Tokens를 핵심 방법론으로 제안합니다 . 시각적 인지 능력 향상을 위해 HY-ViT 2.0 인코더를 탑재하고, 고품질 embodied 데이터를 활용한 반복적인 사후 학습 패러다임을 설계했습니다.#Review#Embodied Foundation Models#Mixture-of-Transformers#Visual Latent Tokens#On-policy Distillation#Chain-of-Thought#Real-world Agents2026년 4월 9일댓글 수 로딩 중
[논문리뷰] Revisiting On-Policy Distillation: Empirical Failure Modes and Simple FixesLarge Language Model (LLM)의 Post-training에 있어 On-policy Distillation (OPD)은 student-generated rollouts에 대한 teacher feedback을 활용하기 때문에 매력적이다.#Review#On-policy Distillation#LLM Post-training#Sampled-token OPD#Variance Reduction#Local Support Matching#Truncated Reverse-KL#Top-p Rollout Sampling#Special Token Masking2026년 3월 26일댓글 수 로딩 중