#Refusal Steering

1개의 포스트

[논문리뷰] THINKSAFE: Self-Generated Safety Alignment for Reasoning Models

본 논문은 강화 학습(RL) 기반의 추론 모델들이 복잡한 추론 태스크에서 성능을 극대화하는 과정에서 발생하는 '안전성 저하(safety tax)' 문제를 해결하고자 합니다.

#Review #Large Reasoning Models #Safety Alignment #Self-Distillation #Refusal Steering #Distributional Shift #Chain-of-Thought #Reinforcement Learning

2026년 2월 1일