#Activation-based Steering

1개의 포스트

[논문리뷰] How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

본 연구는 사회적으로 민감한 영역에 배포되는 대규모 언어 모델(LLMs) 의 예측 불가능한 행동(예: 의도 불일치, 일관성 없는 성격 표현)이 초래하는 상당한 위험을 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Controllability #Hierarchical Benchmark #Behavioral Granularity #Model Steering #Prompt Engineering #Activation-based Steering

2026년 3월 3일