[논문리뷰] GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment본 논문은 현재 긴 문맥 이해를 위한 RL 학습이 데이터의 편향된 구성과 보상 신호의 불균일성으로 인해 비효율적으로 진행된다는 점을 핵심 문제로 지적한다.#Review#Long-Context RL#Capability-Oriented Data#Reinforcement Learning#Multitask Alignment#Advantage Estimation#TMN-Reweight2026년 5월 19일댓글 수 로딩 중