[논문리뷰] CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation본 논문은 기존의 Customized Image Generation 분야에서 다수의 효과를 적용할 때 발생하는 스토리지 오버헤드, 라우팅 지연, 그리고 모듈 간 매개변수 간섭 문제를 해결하고자 합니다.#Review#CollectionLoRA#Multi-Teacher Distillation#On-Policy Distillation#Diffusion Models#Few-step Generation#Concept Isolation2026년 5월 28일댓글 수 로딩 중
[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.#Review#Image Generation#Agentic Workflow#Self-Evolving#Visual Experience Distillation#Tool-Orchestrated#On-Policy Distillation#Multimodal Agent2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Learning to Foresee: Unveiling the Unlocking Efficiency of On-Policy Distillation본 논문은 대규모 언어 모델(LLM)의 post-training에서 OPD가 RL보다 높은 효율성을 보이는 근본적인 파라미터 업데이트 메커니즘을 규명하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Parameter Dynamics#Training Efficiency#EffOPD#Subspace Evolution2026년 5월 17일댓글 수 로딩 중
[논문리뷰] DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models본 논문은 기존의 멀티태스크 강화학습(RL) 방식이 겪는 최적화 간섭(Optimization Interference)과 성능 불균형 문제를 해결하기 위해 고안되었습니다.#Review#Diffusion Models#On-Policy Distillation#Multi-Task Reinforcement Learning#Flow Matching#Preference Alignment2026년 5월 14일댓글 수 로딩 중
[논문리뷰] AnyFlow: Any-Step Video Diffusion Model with On-Policy Flow Map Distillation본 논문은 기존 consistency distillation 기반 모델들이 고정된 NFE budgets에 종속되어 sampling step이 증가할 때 오히려 성능이 저하되는 구조적 한계를 해결하기 위해 AnyFlow를 제안한다.#Review#Video Diffusion Models#Flow Map#Any-Step Distillation#On-Policy Distillation#Test-Time Scaling#Backward Simulation#Causal Video Generation2026년 5월 13일댓글 수 로딩 중
[논문리뷰] The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes본 연구는 OPD와 OPSD가 시스템 프롬프트 및 지식 내재화에는 효과적이나, 최근 연구들에서 보고된 학습 불안정성(instability) 및 성능 저하(degradation) 문제를 근본적으로 규명하고자 합니다.#Review#On-Policy Distillation#Self-Distillation#Language Models#Reverse-KL#Privileged Information#Optimization Stability#RLVR2026년 5월 12일댓글 수 로딩 중
[논문리뷰] HyperEyes: Dual-Grained Efficiency-Aware Reinforcement Learning for Parallel Multimodal Search Agents본 논문은 기존 Multimodal search agents가 다중 엔티티 검색 시 직면하는 비효율적인 순차적(sequential) 툴 호출 문제를 해결하기 위해 제안되었다.#Review#Multimodal Search Agents#Reinforcement Learning#Efficiency-Aware#Unified Grounded Search#Parallel Tool Calling#IMEB Benchmark#On-Policy Distillation2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Flow-OPD: On-Policy Distillation for Flow Matching Models본 논문은 Flow Matching 모델의 다중 작업 정렬(multi-task alignment) 과정에서 발생하는 보상 희소성(reward sparsity)과 기울기 간섭(gradient interference) 문제를 해결하고자 합니다.#Review#Flow Matching#On-Policy Distillation#Reinforcement Learning#Multi-task Alignment#Manifold Anchor Regularization#Text-to-Image2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Healthcare AI GYM for Medical Agents본 논문은 의료 AI 에이전트가 복잡한 다단계 임상 추론 환경에서 안정적인 툴 사용 정책을 학습하는 데 한계가 있다는 문제를 해결하고자 합니다. 기존의 단일 턴(single-turn) 기반 의료 QA 연구들은 실제 임상 환경의 핵심인 다단계 상호작용과 툴 활용 능력을 충분히 반영하지 못합니다.#Review#Medical AI Agents#Reinforcement Learning#On-Policy Distillation#Clinical Reasoning#Multi-turn Interaction#Healthcare AI GYM2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL본 논문은 LMM의 표준 post-training 파이프라인인 SFT→RLVR에서 발생하는 distributional drift 문제를 해결하고자 한다. 기존의 SFT는 토큰 수준의 uniform objective에 의존하여 모델이 피상적인 패턴만을 학습하게 만들며, 이는 모델의 본래 성능을 왜곡하는 결과를 초래한다.#Review#Multimodal LLM#Reinforcement Learning#On-Policy Distillation#Distributional Drift#Mixture-of-Experts (MoE)#Adversarial Alignment2026년 5월 5일댓글 수 로딩 중
[논문리뷰] A Survey of On-Policy Distillation for Large Language Models본 논문은 기존의 off-policy LLM 증류(distillation) 방식이 가진 근본적인 train-test mismatch와 그로 인한 exposure bias 문제를 해결하고자 합니다.#Review#On-Policy Distillation#Large Language Models#Knowledge Distillation#Exposure Bias#f-Divergence#Sequence-Level Learning#Reinforcement Learning2026년 4월 1일댓글 수 로딩 중
[논문리뷰] KAT-Coder-V2 Technical ReportAgentic Coding은 단순 코드 생성을 넘어 복잡한 리포지토리 상호작용과 도구 호출을 요구하며, 이는 단일 학습 파이프라인으로는 최적화하기 어려운 복합적인 도메인들을 포함합니다. 기존 연구들은 환경 인프라가 에이전트 스캐폴드와 강하게 결합되어 있어 새로운 데이터셋이나 스캐폴드 통합이 비효율적이라는 한계가 있습니다.#Review#Agentic Coding#Specialize-then-Unify#KwaiEnv#Reinforcement Learning#On-Policy Distillation#Tree Training2026년 3월 30일댓글 수 로딩 중
[논문리뷰] Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation본 논문은 온-폴리시 증류(OPD)의 기계론적 이해 부족 과 잠재력 미활용 문제를 해결하는 것을 목표로 합니다. 표준 OPD를 일반화된 프레임워크로 확장하여 학생 모델이 교사 모델의 성능 경계를 넘어설 수 있도록 하고, 보상 스케일링 인자(λ)와 유연한 참조 모델의 영향을 체계적으로 탐구합니다.#Review#On-Policy Distillation#Reward Extrapolation#Large Language Models (LLMs)#Knowledge Distillation#Reinforcement Learning#Math Reasoning#Code Generation#Multi-teacher Distillation2026년 2월 12일댓글 수 로딩 중
[논문리뷰] Typhoon-S: Minimal Open Post-Training for Sovereign Large Language Models본 연구는 제한된 자원과 엄격한 투명성 제약이 있는 환경에서, 지역 또는 국가 기관이 모델 가중치, 훈련 데이터, 배포에 대한 통제력을 유지할 수 있도록 하는 소버린 대규모 언어 모델(LLM) 의 최소한의 공개 포스트 트레이닝 레시피 를 개발하는 것을 목표로 합니다.#Review#Sovereign LLMs#Post-Training#Instruction Tuning#Supervised Fine-tuning#On-Policy Distillation#Reinforcement Learning#Knowledge Injection#Thai Language2026년 1월 29일댓글 수 로딩 중
[논문리뷰] LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation본 논문은 기존 확산 모델의 느린 추론 속도와 양방향 어텐션으로 인한 실시간 상호작용의 어려움을 해결하고자 합니다.#Review#Real-time Video Generation#Multimodal Diffusion#On-Policy Distillation#Interactive AI Avatars#Video Streaming#Anchor-Heavy Identity Sinks#Lip Synchronization2025년 12월 29일댓글 수 로딩 중