본문으로 건너뛰기

[논문리뷰] SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

링크: 논문 PDF로 바로 열기

저자: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao

핵심 연구 목표

LLM(Large Language Model) 에이전트가 고립적으로 작동하며 과거 경험으로부터 학습하지 못하고, 기존 메모리 기반 방식이 중복되고 노이즈가 많은 원시 궤적을 저장하여 일반화 및 재사용 가능한 행동 패턴 추출을 방해하는 문제를 해결합니다. 자동화된 스킬 발견재귀적 진화 를 통해 원시 경험과 정책 개선 사이의 간극을 메우고, 토큰 사용량을 줄이며 추론 유틸리티를 향상시키는 것이 이 연구의 목표입니다.

핵심 방법론

본 연구는 경험 기반 스킬 증류(experience-based skill distillation) 메커니즘을 도입하여 성공적인 에피소드는 시연으로, 실패한 에피소드는 간결한 실패 교훈으로 전환하여 구조화된 스킬을 생성합니다. 이러한 스킬들은 계층적 스킬 라이브러리(SKILLBANK) 에 일반(전략적 지침) 및 태스크별(태스크 수준 휴리스틱) 스킬로 구성되며, 이는 적응형 검색 전략 에 사용됩니다. 또한, 재귀적 스킬 진화 메커니즘 을 통해 스킬 라이브러리가 RL 훈련 중 에이전트의 정책과 함께 진화하며, GRPO(Group Relative Policy Optimization) 를 사용하여 정책을 업데이트합니다.

주요 결과

SKILLRL은 ALFWorld, WebShop 및 7가지 검색 증강 QA 태스크에서 강력한 기준선보다 15.3% 이상 뛰어난 최첨단 성능 을 달성했습니다. 특히 ALFWorld에서 89.9% 의 성공률을 기록하여 GPT-4o 대비 41.9% , Gemini-2.5-Pro 대비 29.6% 높은 성능을 보였습니다. 또한, 원시 메모리 방식 대비 프롬프트 길이를 10.3% 감소 시켜 컨텍스트 효율성을 크게 향상시켰으며, 바닐라 RL 대비 더 빠른 수렴과 우수한 점근적 성능을 보였습니다.

AI 실무자를 위한 시사점

본 연구는 LLM 에이전트 학습에 있어 원시 궤적 저장 대신 추상화 의 중요성을 강조하며, 효율적인 경험 전달을 위한 새로운 패러다임을 제시합니다. 계층적 스킬 라이브러리재귀적 진화 메커니즘 은 에이전트가 복잡하고 보상이 희소한 환경에서 적응하고 일반화할 수 있는 강력한 방법을 제공합니다. 이는 실제 상호작용 시스템에서 지속적인 학습이 필요한 에이전트를 구축하는 데 실용적인 의미가 있으며, 구조화된 경험적 지식을 통해 소규모 오픈소스 모델도 대규모 독점 모델에 필적하는 성능을 달성할 수 있음을 보여줍니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글