#Hybrid Policy Optimization

2개의 포스트

[논문리뷰] Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

본 논문은 기존 LLM 에이전트 프레임워크가 겪는 높은 구성 비용 과 정적 기능 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Automated Agent Generation #Reinforcement Learning #Hybrid Policy Optimization #Tool Synthesis #In-context Learning #Agent Framework #Scalability

2026년 1월 4일

[논문리뷰] RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

본 논문은 LLM 의 강화 학습(RLVR) 과정에서 발생하는 '능력 경계 붕괴(capability boundary collapse)' 문제를 해결하는 것을 목표로 합니다. 기존 RLVR 방식이 LLM의 내재된 능력 범위를 넘어서는 새로운 추론 능력을 획득하지 못하고 문제 해결 범위를 축소시키는 한계를 극복하고자 합니다.

#Review #Large Language Models #Reinforcement Learning #Capability Collapse #Hybrid Policy Optimization #Multiple Importance Sampling #Exploration #Math Reasoning #Out-of-Distribution

2025년 8월 7일