[논문리뷰] Parallel-R1: Towards Parallel Thinking via Reinforcement Learning본 논문은 대규모 언어 모델(LLM)이 복잡한 추론 문제에서 병렬적 사고를 습득하도록 훈련하는 데 있어 기존 지도 학습(SFT) 방식의 한계를 극복하고자 합니다.#Review#Large Language Models#Parallel Thinking#Reinforcement Learning#Mathematical Reasoning#Progressive Curriculum#Reward Design#Exploration Scaffold2025년 9월 10일댓글 수 로딩 중