[논문리뷰] Surgical Post-Training: Cutting Errors, Keeping Knowledge본 논문은 대규모 언어 모델(LLM)의 추론 능력을 효율적으로 향상시키면서, 기존 방법론에서 발생하는 파국적 망각(catastrophic forgetting) 문제를 완화하는 새로운 후처리 학습 패러다임을 제안합니다.#Review#LLM Post-Training#Catastrophic Forgetting#Direct Preference Optimization (DPO)#Reward-based Learning#Data Rectification#Binary Cross-Entropy#Reasoning Tasks#Knowledge Preservation2026년 3월 3일댓글 수 로딩 중