[논문리뷰] Targeted Neuron Modulation via Contrastive Pair SearchLLM이 유해한 요청을 거부하도록 Instruction-tuning되지만, 이러한 Safety behavior의 Mechanistic basis는 여전히 불분명하다.#Review#Neuron Modulation#Contrastive Neuron Attribution#Refusal Mechanisms#Alignment Fine-tuning#Mechanistic Interpretability#Behavioral Steering#MLP Neurons2026년 5월 18일댓글 수 로딩 중