[논문리뷰] Online Experiential Learning for Language Models현재 대규모 언어 모델(LLM) 개선 패러다임은 주로 offline training에 의존하며, 인간 annotation 또는 simulated environment를 활용합니다. 그러나 이러한 방식은 실제 배포 환경에서 축적되는 풍부한 경험을 전혀 활용하지 못한다는 근본적인 한계가 있습니다.#Review#Online Experiential Learning (OEL)#Context Distillation#Language Models#Reward-Free Learning#Catastrophic Forgetting#Token Efficiency#On-Policy Learning2026년 3월 17일댓글 수 로딩 중