#Token Stabilization

1개의 포스트

[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization

기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.

#Review #Preference Optimization #LLM Alignment #Direct Preference Optimization #Reference-Free #Likelihood Anchoring #Token Stabilization #Dual-Margin Loss #Unlearning

2026년 2월 2일