#Agentic Mid-Training

1개의 포스트

[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents

본 논문은 대규모 언어 모델(LLM)이 긴 탐색 경로와 많은 상호작용이 필요한 심층 검색 태스크를 수행할 때 겪는 어려움, 특히 고품질 훈련 데이터 부족과 높은 상호작용 비용 문제를 해결하는 것을 목표로 합니다.

#Review #Long-Horizon Search #Multimodal LLM #Task Synthesis #Agentic Mid-Training #Reinforcement Learning #Tool-Augmented Agents #Web Search

2026년 2월 16일