[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.#Review#GUI Agents#Reinforcement Learning#Supervised Fine-tuning#Visual Grounding#Long-Horizon Tasks#Partial Verifiability#KL Regularization#Data Curation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] GARDO: Reinforcing Diffusion Models without Reward HackingReinforcement Learning(RL) 기반의 확산 모델 fine-tuning 과정에서 발생하는 Reward Hacking 문제(proxy reward는 증가하지만 실제 이미지 품질이 저하되고 다양성이 감소하는 현상)를 해결하는 것이 주 목표입니다.#Review#Diffusion Models#Reinforcement Learning#Reward Hacking#KL Regularization#Adaptive Regularization#Diversity Optimization#Text-to-Image Generation2026년 1월 5일댓글 수 로딩 중