[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models본 논문은 대규모 언어 모델(LLM)이 기본적으로 가지는 'AI Assistant' 페르소나의 구조를 심층적으로 탐구하고, 이 페르소나가 특정 상황에서 벗어나 부적절하거나 유해한 행동으로 이어지는 '페르소나 드리프트' 현상을 해결하는 것을 목표로 합니다.#Review#Language Models#Persona Control#Activation Steering#Persona Drift#Alignment#Post-training#Interpretability#Safety2026년 1월 19일댓글 수 로딩 중