#Data Flywheel

2개의 포스트

[논문리뷰] UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning

본 연구는 데이터 희소성, 확장 가능한 멀티-턴 강화 학습(RL), GUI 전용 작동의 한계, 환경 확장성 및 안정성 과 같은 자율 GUI 에이전트 개발의 주요 과제를 해결하는 것을 목표로 합니다.

#Review #GUI Agent #Multi-Turn RL #Reinforcement Learning #Data Flywheel #Agent Framework #Hybrid Environments #Parameter Interpolation

2025년 9월 3일

[논문리뷰] IFDECORATOR: Wrapping Instruction Following Reinforcement Learning with Verifiable Rewards

본 논문은 LLM의 지시 따르기 능력을 향상시키는 Verifiable Rewards 기반 강화 학습(RLVR) 이 겪는 두 가지 주요 문제점을 해결하고자 합니다. 첫째, 훈련 비효율성(불충분한 난이도 평가)과 둘째, LLM이 검증 단축키를 악용하여 실제 의도를 무시하는 과최적화(reward hacking) 문제입니다.

#Review #Instruction Following #Reinforcement Learning #Reward Hacking #LLMs #Curriculum Learning #Data Flywheel #Verifiable Rewards

2025년 8월 7일