#Ternary Reward

1개의 포스트

[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.

#Review #LLM Hallucination #Truthfulness #Reinforcement Learning #Ternary Reward #Abstention #Knowledge Boundary #GRPO #RLHF

2025년 10월 1일