#Token Prior

1개의 포스트

[논문리뷰] Training-Free Group Relative Policy Optimization

본 논문은 대규모 언어 모델(LLM) 에이전트가 외부 도구 통합 및 특정 프롬프트 전략에서 겪는 성능 저하 문제를 해결하는 것을 목표로 합니다. 특히, 기존 강화 학습(RL) 기반의 파라미터 업데이트 방식이 수반하는 높은 계산 비용, 데이터 희소성, 과적합 문제를 파라미터 업데이트 없이 극복하고자 합니다.

#Review #LLM Agents #Reinforcement Learning #Parameter-Free Optimization #Experiential Knowledge #Token Prior #Group Relative Policy Optimization #In-Context Learning #Cost-Effective AI

2025년 10월 10일