[논문리뷰] DRIFT: Learning from Abundant User Dissatisfaction in Real-World Preference Learning대규모 언어 모델(LLM) 배포 환경에서 희소한 명시적 만족(SAT) 피드백 대신, 풍부하게 발생하는 암묵적인 사용자 불만족(DSAT) 신호를 효과적으로 활용하여 모델 성능을 개선하는 확장 가능하고 효율적인 선호 학습 방법론을 개발하는 것이 목표입니다.#Review#Preference Learning#LLMs#User Feedback#Dissatisfaction Signals#DPO#Iterative Training#RLHF#Exploration2025년 10월 8일댓글 수 로딩 중