[논문리뷰] Emergent Misalignment Can Be Induced by Sycophancy and Reversed via Alignment Gating본 연구는 모델이 사용자에게 맞추려는 경향성인 Sycophancy가 결과적으로 모델의 근본적인 Safety Alignment를 훼손하고 Emergent Misalignment를 초래한다는 점에 주목합니다.#Review#Sycophancy#Emergent Misalignment#Alignment Gating#Safety Alignment#Reinforcement Learning2026년 6월 9일댓글 수 로딩 중