#Qwen-3

1개의 포스트

[논문리뷰] Value Drifts: Tracing Value Alignment During LLM Post-Training

본 연구는 LLM의 가치 정렬이 사후 훈련 과정에서 언제, 어떻게 발생하는지에 대한 기존 연구의 공백을 해결하고자 합니다. 특히, 모델이 인간의 가치를 학습하고 표현하는 훈련 역학을 간과하는 문제에 주목하여, 사후 훈련 단계에서 모델의 가치가 어떻게 진화하는지 추적하고 정량화하는 것을 목표로 합니다.

#Review #LLM Alignment #Value Drift #Supervised Fine-Tuning (SFT)#Preference Optimization #RLHF #Llama-3 #Qwen-3 #Human Values

2025년 11월 9일