[논문리뷰] A Survey of On-Policy Distillation for Large Language ModelsMao Zheng이 arXiv에 게시한 'A Survey of On-Policy Distillation for Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] KAT-Coder-V2 Technical ReportHan Zhang이 arXiv에 게시한 'KAT-Coder-V2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Coding#Specialize-then-Unify#KwaiEnv#Reinforcement Learning#On-Policy Distillation#Tree Training2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward ExtrapolationarXiv에 게시된 'Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation' 논문에 대한 자세한 리뷰입니다.#Review#On-Policy Distillation#Reward Extrapolation#Large Language Models (LLMs)#Knowledge Distillation#Reinforcement Learning#Math Reasoning#Code Generation#Multi-teacher Distillation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language ModelsarXiv에 게시된 'Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Sovereign LLMs#Post-Training#Instruction Tuning#Supervised Fine-tuning#On-Policy Distillation#Reinforcement Learning#Knowledge Injection#Thai Language2026년 1월 29일댓글 수 로딩 중
[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy DistillationSteffi Chern이 arXiv에 게시한 'LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Real-time Video Generation#Multimodal Diffusion#On-Policy Distillation#Interactive AI Avatars#Video Streaming#Anchor-Heavy Identity Sinks#Lip Synchronization2025년 12월 29일댓글 수 로딩 중