#KL Regularization

2개의 포스트

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward Hacking

Reinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.

#Review #Diffusion Models #Reinforcement Learning #Reward Hacking #KL Regularization #Adaptive Regularization #Diversity Optimization #Text-to-Image Generation

2026년 1월 5일