[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.#Review#LLM Hallucination#Truthfulness#Reinforcement Learning#Ternary Reward#Abstention#Knowledge Boundary#GRPO#RLHF2025년 10월 1일댓글 수 로딩 중