[논문리뷰] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning본 연구는 데이터 희소성, 확장 가능한 멀티-턴 강화 학습(RL), GUI 전용 작동의 한계, 환경 확장성 및 안정성 과 같은 자율 GUI 에이전트 개발의 주요 과제를 해결하는 것을 목표로 합니다.#Review#GUI Agent#Multi-Turn RL#Reinforcement Learning#Data Flywheel#Agent Framework#Hybrid Environments#Parameter Interpolation2025년 9월 3일댓글 수 로딩 중
[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.#Review#Instruction Following#Reinforcement Learning#Reward Hacking#LLMs#Curriculum Learning#Data Flywheel#Verifiable Rewards2025년 8월 7일댓글 수 로딩 중