[논문리뷰] Online Experiential Learning for Language Models현재 대규모 언어 모델(LLM) 개선 패러다임은 주로 offline training에 의존하며, 인간 annotation 또는 simulated environment를 활용합니다. 그러나 이러한 방식은 실제 배포 환경에서 축적되는 풍부한 경험을 전혀 활용하지 못한다는 근본적인 한계가 있습니다.#Review#Online Experiential Learning (OEL)#Context Distillation#Language Models#Reward-Free Learning#Catastrophic Forgetting#Token Efficiency#On-Policy Learning2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Agent Learning via Early Experience본 논문은 보상이 없거나 불명확한 환경에서 언어 에이전트 가 스스로 경험을 통해 학습하고 개선하는 데 따르는 어려움을 해결하고자 합니다.#Review#Language Agents#Early Experience#Reward-Free Learning#World Modeling#Self-Reflection#Imitation Learning#Reinforcement Learning#Out-of-Domain Generalization2025년 10월 10일댓글 수 로딩 중