[논문리뷰] ESPO: Early-Stopping Proximal Policy Optimization본 논문은 LLM의 다단계 추론(Multi-step reasoning) 과정에서 발생하는 연산 비효율성과 잘못된 학습 신호 문제를 해결하기 위해 ESPO를 제안한다.#Review#Reinforcement Learning#Large Language Models#Proximal Policy Optimization#Early Stopping#Reasoning#Compute Efficiency#Credit Assignment2026년 6월 1일댓글 수 로딩 중