#Reinforcement Learning from AI Feedback

1개의 포스트

[논문리뷰] PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

이 논문은 기존 도구 증강 LLM 기반 에이전트의 얕은 검색 능력, 약한 정렬 메트릭, 불안정한 도구 사용의 한계를 극복하고자 합니다.

#Review #Deep Research Agent #Reinforcement Learning from AI Feedback #RLOO Algorithm #Large Language Models #Tool Use #Self-Correction #Reasoning Scaffold #Agent Alignment

2025년 10월 22일