[논문리뷰] Humanline: Online Alignment as Perceptual Loss본 논문은 온라인 정렬(예: GRPO )이 오프라인 정렬(예: DPO )보다 성능이 뛰어난 이유를 행동 경제학의 전망 이론(prospect theory) 에 기반한 인간 중심적 관점에서 설명하고자 합니다.#Review#LLM Alignment#Online RLHF#Offline RLHF#Prospect Theory#Perceptual Loss#Human-Centric AI#Reinforcement Learning2025년 10월 1일댓글 수 로딩 중