[논문리뷰] SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search본 논문은 Agentic Search 시스템에서 발생하는 심각한 Over-search 문제를 해결하기 위해 SAAS 프레임워크를 제안합니다.#Review#Agentic Search#Reinforcement Learning#Over-Search Mitigation#Knowledge Boundary#Search Efficiency#Reward Hacking2026년 5월 31일댓글 수 로딩 중
[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.#Review#LLM Hallucination#Truthfulness#Reinforcement Learning#Ternary Reward#Abstention#Knowledge Boundary#GRPO#RLHF2025년 10월 1일댓글 수 로딩 중