[논문리뷰] F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the RareRLVR (Reinforcement Learning with Verifiable Rewards)에서 그룹 샘플링 기반의 정책 업데이트가 흔한 해결책으로 편향되어 희귀하지만 올바른 해결책을 간과하는 '정책 샤프닝(policy sharpening)' 문제를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM#Policy Optimization#Reward Models#Diversity Preservation#Focal Loss#Group Sampling#Mathematical Reasoning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Diversity-Preserved Distribution Matching Distillation for Fast Visual Synthesis본 논문은 적은 추론 단계(few-step inference)로 고품질 이미지를 빠르게 생성하기 위한 Distribution Matching Distillation (DMD) 과정에서 발생하는 모드 붕괴(mode collapse) 문제를 해결하는 것을 목표로 합니다.#Review#Diffusion Models#Model Distillation#Mode Collapse#Image Generation#Diversity Preservation#Flow Matching#Few-Step Synthesis2026년 2월 3일댓글 수 로딩 중