[논문리뷰] Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers논문은 대규모 언어 모델(LLM) 기반 자동화된 정리 증명 시스템에서 발생하는 훈련 시간(training-time) 확장성 과 추론 시간(inference-time) 컴퓨팅 이라는 두 가지 핵심 과제를 해결하는 것을 목표로 합니다.#Review#LLM Step-Provers#Reinforcement Learning (RL)#Off-Policy RL#Multi-Agent Systems#Tree Search#Automated Theorem Proving (ATP)#Formal Mathematics#AlphaZero2025년 9월 9일댓글 수 로딩 중