#Search Agent Trajectories

1개의 포스트

[논문리뷰] LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

본 논문은 기존 long-context 강화학습이 가진 데이터의 낮은 난이도와 보상 신호의 희소성(Sparsity) 문제를 해결하고자 합니다.

#Review #Long-Context #Reinforcement Learning #Rubric Reward #Search Agent Trajectories #Tiered Distractors #Multi-hop Reasoning

2026년 5월 31일