#Circuit Analysis

1개의 포스트

[논문리뷰] Thinking Sparks!: Emergent Attention Heads in Reasoning Models During Post Training

대규모 추론 모델의 후처리 훈련(Post-Training) 기법(SFT, RL 등)이 모델의 추론 능력 향상에 기여하는 내부 아키텍처 메커니즘의 불투명성을 해소하는 것이 주요 목표입니다.

#Review #Mechanistic Interpretability #Attention Heads #Post-Training #Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Circuit Analysis #Reasoning Models #Transformer Architecture

2025년 10월 1일