[논문리뷰] SLIME: Stabilized Likelihood Implicit Margin Enforcement for Preference Optimization기존 선호도 최적화 방법론, 특히 DPO 및 SimPO 가 겪는 '언러닝(unlearning)'과 '포맷팅 붕괴(formatting collapse)' 문제를 해결하는 것이 주 목표입니다.#Review#Preference Optimization#LLM Alignment#Direct Preference Optimization#Reference-Free#Likelihood Anchoring#Token Stabilization#Dual-Margin Loss#Unlearning2026년 2월 2일댓글 수 로딩 중