#Boundary Proxy

1개의 포스트

[논문리뷰] Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

본 연구는 답변이 정확한 Long-CoT 데이터라도 그 내부의 추론 궤적에 따라 모델 학습의 유효성이 크게 달라질 수 있다는 점을 문제로 제기합니다. 기존 연구들은 데이터 선택이나 단순한 길이 절삭(truncation)에 의존하여 추론 단계의 품질을 근본적으로 규명하지 못했습니다.

#Review #Long-CoT #Supervised Fine-Tuning #Harmful Continuation #Uncertainty–Geometry Mismatch #Reasoning Trace #Boundary Proxy

2026년 6월 2일