[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents

수정: 2026년 1월 27일

링크: 논문 PDF로 바로 열기

저자: Zhihan Liu, Lin Guan, Yixin Nie, Kai Zhang, Zhuoqun Hao, Lin Chen, Asli Celikyilmaz, Zhaoran Wang, Na Zhang

핵심 연구 목표

본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다. 특히, 강화 학습(RL) 환경 및 모델링 선택의 어떤 특성이 도메인 간 일반화에 가장 큰 영향을 미치는지 분석하여, 배포될 환경을 알 수 없을 때 에이전트의 능력을 최대한 보존할 수 있는 훈련 전략을 제안합니다.

핵심 방법론

연구진은 Webshop , Sokoban , ALFWorld , SciWorld 네 가지 에이전트 환경에서 RL 훈련을 수행했습니다. 도메인 간 일반화에 강하게 상관관계가 있는 두 가지 환경 특성, 즉 상태 정보 풍부도 (평균 문자 수로 측정)와 계획 복잡도 (목표 도달 가능성 및 궤적 길이로 측정)를 식별했습니다. 상태 정보 풍부도 의 인과적 영향을 검증하기 위해 목표와 관련 없는 정보를 상태 관찰에 주입하는 상태 무작위화(State Information Augmentation) 기법을 제안하고 적용했습니다. 또한, SFT 웜업/미드 트레이닝단계별 추론(Step-by-Step Thinking) 활성화와 같은 모델링 선택의 영향을 분석했습니다.

주요 결과

Sokoban (높은 상태 풍부도: 3114자 , 높은 계획 복잡도: 44.0단계 )과 SciWorld (중간 상태 풍부도: 2851자 , 높은 계획 복잡도: 43.5단계 ) 환경에서 훈련된 에이전트가 가장 뛰어난 도메인 간 일반화 성능을 보였습니다. 상태 무작위화 는 도메인 간 일반화를 일관되게 개선했으며, 예를 들어 Ckpt V1에서는 WebShop에서 +35.5% , Sokoban에서 +42.5% 의 OOD 성능 향상을 가져왔습니다. RL 훈련 중 단계별 추론을 활성화 하는 것은 도메인 내 성능을 항상 향상시키지는 않지만, 일반화 보존에 결정적인 역할을 하여, 비활성화 시 ALFWorld에서 200% 이상 성능 하락 과 같은 심각한 OOD 성능 저하를 방지했습니다.

AI 실무자를 위한 시사점

AI 실무자들은 LLM 에이전트의 일반화 능력을 극대화하기 위해 높은 상태 정보 풍부도와 계획 복잡성 을 가진 환경을 훈련에 선택하거나 구축해야 합니다. 추가적으로, 가벼운 상태 무작위화 를 통해 에이전트의 관찰에 목표와 무관한 방해 요소를 주입하여 도메인 간 강건성을 효과적으로 향상시킬 수 있습니다. 또한, 명시적인 단계별 추론 을 RL 훈련 및 평가 중에 활성화하는 것은 에이전트가 얕은 도메인 특정 패턴에 과적합되는 것을 방지하고, 새로운 환경으로 에이전트의 능력을 전달하는 데 필수적입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

태그

#Review#LLM Agents#Reinforcement Learning#Cross-Domain Generalization#State Information Richness#Planning Complexity#State Augmentation#Step-by-Step Reasoning#Mid-Training

Review 의 다른글