[논문리뷰] Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability본 연구는 'SFT는 Memorization에 치중하고 RL은 Generalization에 강하다'는 기존의 지배적인 통념이 실험 환경에 따른 인위적인 결과일 수 있다는 가설에서 출발합니다.#Review#Supervised Fine-Tuning#Chain-of-Thought#Generalization#Model Capability#Optimization Dynamics#Safety Degradation2026년 4월 9일댓글 수 로딩 중