[논문리뷰] Language Models Can Learn from Verbal Feedback Without Scalar Rewards기존 RLHF(Reinforcement Learning from Human Feedback) 방식이 구두 피드백을 스칼라 보상으로 압축하여 발생하는 정보 손실, 모호성, 보상 스케일 불균형 문제를 해결하는 것을 목표로 합니다.#Review#Verbal Feedback#Conditional Generation#Large Language Models#Feedback-Conditional Policy#Offline-Online Learning#Reward Hypothesis Bypass2025년 9월 29일댓글 수 로딩 중