#Exploration Scaffold

1개의 포스트

[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.

#Review #Large Language Models #Parallel Thinking #Reinforcement Learning #Mathematical Reasoning #Progressive Curriculum #Reward Design #Exploration Scaffold

2025년 9월 10일