#Online RLHF

1개의 포스트

[논문리뷰] Humanline: Online Alignment as Perceptual Loss

본 논문은 온라인 정렬(예: GRPO )이 오프라인 정렬(예: DPO )보다 성능이 뛰어난 이유를 행동 경제학의 전망 이론(prospect theory) 에 기반한 인간 중심적 관점에서 설명하고자 합니다.

#Review #LLM Alignment #Online RLHF #Offline RLHF #Prospect Theory #Perceptual Loss #Human-Centric AI #Reinforcement Learning

2025년 10월 1일