#Inference-Time Iteration

1개의 포스트

[논문리뷰] Bootstrapping Task Spaces for Self-Improvement

본 논문은 대규모 언어 모델(LLM)이 추론 시 여러 단계에 걸쳐 스스로 개선하는 능력을 학습하는 방법을 연구합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Self-Improvement #Autocurriculum #Task-Space Exploration #Inference-Time Iteration #Policy Optimization

2025년 9월 8일