[논문리뷰] Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents본 연구는 대규모 언어 모델(LLM) 에이전트가 좁은 범위의 환경에서 후기 훈련(post-training)된 후 광범위하고 이전에 본 적 없는 도메인에 배포될 때 발생하는 일반화 문제를 해결하는 것을 목표로 합니다.#Review#LLM Agents#Reinforcement Learning#Cross-Domain Generalization#State Information Richness#Planning Complexity#State Augmentation#Step-by-Step Reasoning#Mid-Training2026년 1월 26일댓글 수 로딩 중