#Planning Complexity

1개의 포스트

[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Reinforcement Learning #Cross-Domain Generalization #State Information Richness #Planning Complexity #State Augmentation #Step-by-Step Reasoning #Mid-Training

2026년 1월 26일