[논문리뷰] Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces본 연구는 답변이 정확한 Long-CoT 데이터라도 그 내부의 추론 궤적에 따라 모델 학습의 유효성이 크게 달라질 수 있다는 점을 문제로 제기합니다. 기존 연구들은 데이터 선택이나 단순한 길이 절삭(truncation)에 의존하여 추론 단계의 품질을 근본적으로 규명하지 못했습니다.#Review#Long-CoT#Supervised Fine-Tuning#Harmful Continuation#Uncertainty–Geometry Mismatch#Reasoning Trace#Boundary Proxy2026년 6월 2일댓글 수 로딩 중