#Behavioral Shift Detection

1개의 포스트

[논문리뷰] Persona Vectors: Monitoring and Controlling Character Traits in Language Models

이 논문은 대규모 언어 모델(LLMs)에서 발생하는 예상치 못한 또는 바람직하지 않은 페르소나 변화 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models (LLMs)#Persona Control #Activation Steering #Finetuning #Behavioral Shift Detection #Interpretability #Data Filtering

2025년 8월 2일