[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward HackingReinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.#Review#Diffusion Models#Reinforcement Learning#Reward Hacking#KL Regularization#Adaptive Regularization#Diversity Optimization#Text-to-Image Generation2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B이 논문은 소규모 모델이 강력한 추론 능력을 갖추기 어렵다는 기존의 통념에 도전하고, 1.5B 파라미터 의 경량 모델인 VibeThinker-1.5B 가 대규모 모델에 필적하는 추론 능력을 경제적으로 달성할 수 있음을 입증하는 것을 목표로 합니다.#Review#Small Language Models#Reasoning#Diversity Optimization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Spectrum-to-Signal Principle (SSP)#Mathematical Reasoning#Code Generation2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Jointly Reinforcing Diversity and Quality in Language Model Generations대규모 언어 모델(LM)의 후처리 과정에서 발생하는 다양성 감소 문제를 해결하는 것이 주요 목표입니다. 기존 후처리 방식이 정확도와 유용성에 초점을 맞춰 출력 분포가 과도하게 좁아지고 아이디어 범위가 축소되는 현상을 방지하며, 응답 품질과 의미론적 다양성을 동시에 최적화하는 방법을 제시하고자 합니다.#Review#Reinforcement Learning#Language Models#Diversity Optimization#Quality Enhancement#Semantic Clustering#Post-training#Generative AI2025년 9월 3일댓글 수 로딩 중