[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.#Review#Deep Research Agent#Reinforcement Learning from AI Feedback#RLOO Algorithm#Large Language Models#Tool Use#Self-Correction#Reasoning Scaffold#Agent Alignment2025년 10월 22일댓글 수 로딩 중