#Decoupled Policy Optimization

1개의 포스트

[논문리뷰] Mem-π: Adaptive Memory through Learning When and What to Generate

본 논문은 기존 LLM 에이전트의 정적인 메모리 검색 패러다임이 갖는 한계를 극복하기 위해 제안되었습니다. 현재의 메모리 증강 에이전트들은 주로 외부 저장소에서 과거의 경험을 검색하는 방식에 의존하지만, 이러한 검색된 데이터는 현재의 에이전트 맥락과 맞지 않거나 지나치게 특수하여 범용성이 떨어지는 문제가 있습니다.

#Review #Large Language Model Agents #Generative Memory #Reinforcement Learning #Adaptive Memory #Abstention Policy #Decoupled Policy Optimization

2026년 5월 20일