#Knowledge-intensive Tasks

1개의 포스트

[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision

본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.

#Review #Search Agents #LLM #Reinforcement Learning #Synthetic Data #Reward Shaping #Entity-aware Reward #Policy Optimization #Knowledge-intensive Tasks

2025년 10월 29일