[논문리뷰] Selective Steering: Norm-Preserving Control Through Discriminative Layer Selection대규모 언어 모델(LLM)이 정렬 노력에도 불구하고 여전히 유해한 행동에 취약하며, 기존 액티베이션 스티어링(Activation Steering) 기법들이 norm 보존 실패 로 인한 생성 붕괴, 세심한 계수 튜닝, 또는 이진 제어 등의 한계를 가진다는 문제점을 해결하고자 합니다.#Review#Activation Steering#Large Language Models (LLMs)#Norm Preservation#Discriminative Layer Selection#Behavior Control#Inference-time Intervention#Angular Steering2026년 1월 27일댓글 수 로딩 중