#Long-Context RL

1개의 포스트

[논문리뷰] GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment

본 논문은 현재 긴 문맥 이해를 위한 RL 학습이 데이터의 편향된 구성과 보상 신호의 불균일성으로 인해 비효율적으로 진행된다는 점을 핵심 문제로 지적한다.

#Review #Long-Context RL #Capability-Oriented Data #Reinforcement Learning #Multitask Alignment #Advantage Estimation #TMN-Reweight

2026년 5월 19일