#Off-Policy Optimization

1개의 포스트

[논문리뷰] Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

대규모 언어 모델(LLM) 에이전트가 강화 학습(RL) 훈련 시 새로운 상태 발견이 필요한 환경에서 탐색에 어려움을 겪는 문제를 해결하는 것을 목표로 합니다. 기존 방법론들이 사전 학습된 지식에 의존하여 탐색 능력이 제한되는 한계를 극복하고, 더욱 탐색적이고 일반화 가능한 LLM 기반 에이전트 구축을 목적으로 합니다.

#Review #LLM Agents #Reinforcement Learning #Exploration #Memory Augmentation #Hybrid RL #On-Policy Optimization #Off-Policy Optimization

2026년 2월 26일