#Behavioral Steering

1개의 포스트

[논문리뷰] Targeted Neuron Modulation via Contrastive Pair Search

LLM이 유해한 요청을 거부하도록 Instruction-tuning되지만, 이러한 Safety behavior의 Mechanistic basis는 여전히 불분명하다.

#Review #Neuron Modulation #Contrastive Neuron Attribution #Refusal Mechanisms #Alignment Fine-tuning #Mechanistic Interpretability #Behavioral Steering #MLP Neurons

2026년 5월 18일