#Gradient Projection

1개의 포스트

[논문리뷰] Safety Alignment as Continual Learning: Mitigating the Alignment Tax via Orthogonal Gradient Projection

본 논문은 LLM의 안전성 정렬 과정에서 발생하는 Alignment Tax가 본질적으로는 서로 다른 최적화 목적이 충돌하며 발생하는 'catastrophic forgetting'의 일종임을 규명합니다 .

#Review #Safety Alignment #Alignment Tax #Continual Learning #Catastrophic Forgetting #Gradient Projection #Orthogonal Constraint

2026년 5월 20일