본문으로 건너뛰기

#On-Policy Distillation

15개의 포스트

[논문리뷰] CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

댓글 수 로딩 중

[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

댓글 수 로딩 중

[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

댓글 수 로딩 중

[논문리뷰] Healthcare AI GYM for Medical Agents

댓글 수 로딩 중

[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

댓글 수 로딩 중

[논문리뷰] KAT-Coder-V2 Technical Report

댓글 수 로딩 중

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

댓글 수 로딩 중

[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

댓글 수 로딩 중