#On-Policy Distillation

31개의 포스트

[논문리뷰] On-Policy Delta Distillation

본 논문은 기존의 On-Policy Distillation (OPD) 방식이 교사 모델의 전체 출력 분포를 모방하는 데 그쳐, 추론 능력 향상에 필수적인 핵심 학습 궤적을 충분히 전달하지 못한다는 문제를 제기합니다 .

#Review #Knowledge Distillation #On-Policy Distillation #Reasoning Capability #Delta Signal #LLM Post-training #Reinforcement Learning

2026년 7월 19일

[논문리뷰] SEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning

본 논문은 장기적(Long-horizon) agentic 작업에서 발생하는 sparse trajectory-level reward와 token-level policy learning 사이의 불일치 문제를 해결하고자 합니다.

#Review #Agentic Reinforcement Learning #On-Policy Distillation #Hindsight Learning #Large Language Models #Supervised Fine-Tuning #Self-Evolving

2026년 7월 16일

[논문리뷰] Demystifying On-Policy Distillation: Roles, Pathologies, and Regulations

본 논문은 최신 LLM post-training의 표준이 된 OPD의 학습 동역학이 여전히 불투명하다는 점을 지적한다. OPD는 때때로 성능 향상을 이끌지만, 많은 경우 불안정성을 보이거나 탐색 붕괴를 초래하며 심지어 outcome-based RL보다 성능이 저하되기도 한다 .

#Review #On-Policy Distillation #LLM Post-training #Reinforcement Learning #Exploration Catalyst #Pathology #Signal Regulation

2026년 7월 16일

[논문리뷰] ShortOPD: Recovering Pruned LLMs with Short-to-Long On-Policy Distillation

본 논문은 구조적 프루닝(Structured Pruning)이 적용된 LLM이 객관식 벤치마크에서는 성능을 유지하지만, 실제 배포 시 요구되는 자유 형식 생성(Free-form generation)에서는 심각하게 붕괴하는 현상을 해결하고자 합니다.

#Review #Structured Pruning #On-Policy Distillation #LLM Compression #Model Recovery #Repetition Control #Token-level Supervision

2026년 7월 15일

[논문리뷰] Weak-to-Strong Generalization via Direct On-Policy Distillation

본 논문은 대규모 언어 모델의 post-training 단계에서 발생하는 RLVR(Reinforcement Learning with Verifiable Rewards)의 높은 컴퓨팅 비용 문제를 해결하고자 합니다.

#Review #Weak-to-Strong Generalization #Reinforcement Learning #On-Policy Distillation #Policy Shift #Implicit Reward #Post-Training #Large Language Models

2026년 7월 13일

[논문리뷰] Trust Region Policy Distillation

본 논문은 기존 On-Policy Distillation (OPD) 방식이 가진 구조적 불안정성과 낮은 샘플 효율성 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Trust Region #Policy Gradient #Proximal Teacher #Gradient Variance #Mathematical Reasoning #Post-training

2026년 7월 12일

[논문리뷰] TurnOPD: Making On-Policy Distillation Turn-Aware for Efficient Long-Horizon Agent Training

본 논문은 장기 계획 및 에이전트 환경에서 OPD가 겪는 자원 비효율성과 최적화 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #On-Policy Distillation #Long-Horizon Agents #Turn-Aware #Rollout-Depth Budgeting #Efficiency #Reinforcement Learning

2026년 7월 7일

[논문리뷰] Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent

본 논문은 에이전트 모델의 성능을 향상시키기 위한 기존의 파라미터 스케일링 전략이 갖는 높은 비용과 재현성 문제를 해결하기 위해 에이전트 호라이즌(Horizon) 확장을 제안합니다 .

#Review #Agents-A1 #Long-Horizon #Knowledge-Action Graph #Mixture-of-Experts #On-Policy Distillation #Salient Vocabulary Alignment

2026년 6월 29일

[논문리뷰] OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

본 논문은 에이전트 강화학습에서 outcome-based RL의 희소하고 지연된 보상이 중간 의사결정에 대한 세밀한 신용 할당(credit assignment)을 제공하지 못하는 문제를 해결합니다 .

#Review #Agentic Reinforcement Learning #On-Policy Distillation #Skill Extraction #Hindsight Supervision #Hierarchical Skills #Self-Distillation #Token-level Advantage

2026년 6월 25일

[논문리뷰] DanceOPD: On-Policy Generative Field Distillation

본 연구는 단일 모델이 T2I, 로컬/글로벌 에디팅 등 서로 충돌할 수 있는 다양한 생성 능력을 통합하면서도 각각의 성능을 유지해야 하는 문제를 해결하고자 합니다. 기존의 데이터 혼합(data mixing)이나 모델 결합 방식은 capability 간의 gradient 충돌을 야기하거나 성능을 희석시키는 한계를 가집니다.

#Review #Generative Field Distillation #Flow Matching #On-Policy Distillation #Capability Composition #Hard-Routed Field Matching #Multi-Capability Alignment

2026년 6월 25일

[논문리뷰] V-Zero: Answer-Label-Free On-Policy Distillation with Contrastive Evidence Gating for Fine-Grained Visual Reasoning

본 논문은 Fine-grained visual reasoning 분야에서 요구되는 고비용의 RL 기반 탐색 및 대규모 텍스트 레이블 의존 문제를 해결하기 위해 제안되었습니다.

#Review #Multimodal Large Language Models #On-Policy Distillation #Fine-Grained Visual Reasoning #Contrastive Evidence Gating #Visual Grounding

2026년 6월 24일

[논문리뷰] ReNIO: Reweighting Negative Trajectory Importance for LLM On-Policy Distillation

본 논문은 표준 OPD 및 OPSD가 모든 SGO를 균등하게 취급하여 효율적인 학습 기회를 놓치고 있다는 점을 문제로 지적합니다.

#Review #On-Policy Distillation #Language Model Post-training #Sample Reweighting #Negative Trajectory #Reasoning #Knowledge Distillation #Prefix-based Training

2026년 6월 24일

[논문리뷰] OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

본 연구는 기존 메모리 증강 에이전트들이 단기적인 경험 저장이나 활용에는 능숙하지만, 상호작용 기록과 피드백을 지속적인 행동 개선으로 전환하는 '진정한 의미의 자가 진화(self-evolution)' 역량이 부족하다는 문제의식에서 출발합니다.

#Review #Agent Evolver #On-Policy Distillation #Experience Lifecycle #Memory Augmentation #Slow-Fast Co-evolution #Agentic Foundation Models

2026년 6월 16일

[논문리뷰] OPRD: On-Policy Representation Distillation

본 논문은 Large Language Models (LLMs)의 Post-training에 필수적인 On-Policy Distillation (OPD) 방식의 본질적인 두 가지 한계점을 지적하며, 이를 해결하기 위한 새로운 접근 방식인 OPRD (On-Policy Representation Distillation)를 제안합니다.

#Review #On-Policy Distillation #Representation Distillation #Large Language Models #Knowledge Distillation #Hidden States #Mathematical Reasoning #Variance Reduction

2026년 6월 4일

[논문리뷰] Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

본 논문은 기존 OPD가 가진 불균일한 학습 가치 문제를 해결하기 위해 최적화 Granularity를 재설계하고자 합니다. 기존 연구들은 단순히 전체 trajectory를 사용하거나, 개별 토큰을 선별하는 Hard selection 방식에 의존하여 정보 손실과 최적화의 불안정성을 초래했습니다 .

#Review #On-Policy Distillation #Knowledge Distillation #Optimization Granularity #Trajectory Filtering #Token Reweighting #Large Language Models

2026년 6월 3일

[논문리뷰] Trust Region On-Policy Distillation

본 논문은 Small Reasoning Models (SRM)을 위한 On-Policy Distillation (OPD)의 학습 불안정성과 비효율성 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Reasoning Models #Trust Region #Policy Gradient #Knowledge Distillation #Language Models

2026년 6월 2일

[논문리뷰] CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

본 논문은 기존의 Customized Image Generation 분야에서 다수의 효과를 적용할 때 발생하는 스토리지 오버헤드, 라우팅 지연, 그리고 모듈 간 매개변수 간섭 문제를 해결하고자 합니다.

#Review #CollectionLoRA #Multi-Teacher Distillation #On-Policy Distillation #Diffusion Models #Few-step Generation #Concept Isolation

2026년 5월 28일

[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.

#Review #Image Generation #Agentic Workflow #Self-Evolving #Visual Experience Distillation #Tool-Orchestrated #On-Policy Distillation #Multimodal Agent

2026년 5월 21일

[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation

본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Parameter Dynamics #Training Efficiency #EffOPD #Subspace Evolution

2026년 5월 17일

[논문리뷰] DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models

본 논문은 기존의 멀티태스크 강화학습(RL) 방식이 겪는 최적화 간섭(Optimization Interference)과 성능 불균형 문제를 해결하기 위해 고안되었습니다.

#Review #Diffusion Models #On-Policy Distillation #Multi-Task Reinforcement Learning #Flow Matching #Preference Alignment

2026년 5월 14일

[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation

본 논문은 기존 consistency distillation 기반 모델들이 고정된 NFE budgets에 종속되어 sampling step이 증가할 때 오히려 성능이 저하되는 구조적 한계를 해결하기 위해 AnyFlow를 제안한다.

#Review #Video Diffusion Models #Flow Map #Any-Step Distillation #On-Policy Distillation #Test-Time Scaling #Backward Simulation #Causal Video Generation

2026년 5월 13일

[논문리뷰] The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

본 연구는 OPD와 OPSD가 시스템 프롬프트 및 지식 내재화에는 효과적이나, 최근 연구들에서 보고된 학습 불안정성(instability) 및 성능 저하(degradation) 문제를 근본적으로 규명하고자 합니다.

#Review #On-Policy Distillation #Self-Distillation #Language Models #Reverse-KL #Privileged Information #Optimization Stability #RLVR

2026년 5월 12일

[논문리뷰] HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents

본 논문은 기존 Multimodal search agents가 다중 엔티티 검색 시 직면하는 비효율적인 순차적(sequential) 툴 호출 문제를 해결하기 위해 제안되었다.

#Review #Multimodal Search Agents #Reinforcement Learning #Efficiency-Aware #Unified Grounded Search #Parallel Tool Calling #IMEB Benchmark #On-Policy Distillation

2026년 5월 10일

[논문리뷰] Flow-OPD: On-Policy Distillation for Flow Matching Models

본 논문은 Flow Matching 모델의 다중 작업 정렬(multi-task alignment) 과정에서 발생하는 보상 희소성(reward sparsity)과 기울기 간섭(gradient interference) 문제를 해결하고자 합니다.

#Review #Flow Matching #On-Policy Distillation #Reinforcement Learning #Multi-task Alignment #Manifold Anchor Regularization #Text-to-Image

2026년 5월 10일

[논문리뷰] Healthcare AI GYM for Medical Agents

본 논문은 의료 AI 에이전트가 복잡한 다단계 임상 추론 환경에서 안정적인 툴 사용 정책을 학습하는 데 한계가 있다는 문제를 해결하고자 합니다. 기존의 단일 턴(single-turn) 기반 의료 QA 연구들은 실제 임상 환경의 핵심인 다단계 상호작용과 툴 활용 능력을 충분히 반영하지 못합니다.

#Review #Medical AI Agents #Reinforcement Learning #On-Policy Distillation #Clinical Reasoning #Multi-turn Interaction #Healthcare AI GYM

2026년 5월 5일

[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.

#Review #Multimodal LLM #Reinforcement Learning #On-Policy Distillation #Distributional Drift #Mixture-of-Experts (MoE)#Adversarial Alignment

2026년 5월 5일

[논문리뷰] A Survey of On-Policy Distillation for Large Language Models

본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.

#Review #On-Policy Distillation #Large Language Models #Knowledge Distillation #Exposure Bias #f-Divergence #Sequence-Level Learning #Reinforcement Learning

2026년 4월 1일

[논문리뷰] KAT-Coder-V2 Technical Report

Agentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.

#Review #Agentic Coding #Specialize-then-Unify #KwaiEnv #Reinforcement Learning #On-Policy Distillation #Tree Training

2026년 3월 30일

[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.

#Review #On-Policy Distillation #Reward Extrapolation #Large Language Models (LLMs)#Knowledge Distillation #Reinforcement Learning #Math Reasoning #Code Generation #Multi-teacher Distillation

2026년 2월 12일

[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models

본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.

#Review #Sovereign LLMs #Post-Training #Instruction Tuning #Supervised Fine-tuning #On-Policy Distillation #Reinforcement Learning #Knowledge Injection #Thai Language

2026년 1월 29일

[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation

본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.

#Review #Real-time Video Generation #Multimodal Diffusion #On-Policy Distillation #Interactive AI Avatars #Video Streaming #Anchor-Heavy Identity Sinks #Lip Synchronization

2025년 12월 29일