#Mathematics Reasoning

1개의 포스트

[논문리뷰] Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

본 연구는 기존의 사전 훈련된 비반복(non-recurrent) 언어 모델 을 효율적으로 깊이-반복(depth-recurrent) 모델 로 변환하여, 훈련 및 추론 시 연산 비용을 최적화하면서 수학과 같은 추론 태스크에서 성능을 향상시키는 것을 목표로 합니다.

#Review #Recurrent Language Models #Pretrained Models #Model Surgery #Curriculum Learning #Test-Time Compute Scaling #Mathematics Reasoning #Efficient Training #Depth Recurrence

2025년 11월 10일