#Constraint Preservation

1개의 포스트

[논문리뷰] SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

본 논문은 반복적인 자체 개선(recursive self-improvement)을 수행하는 AI 시스템에서 발생하는 미묘한 정렬 편향(alignment drift) 문제를 해결하는 것을 목표로 합니다.

#Review #Recursive Self-Improvement #Alignment Drift #AI Safety #Goal Drift Index (GDI)#Constraint Preservation #Regression Risk #Capability Alignment Ratio (CAR)

2026년 3월 10일