본문으로 건너뛰기

secrett2633's blog

카테고리

Python

PEP (650)

AI/ML

Review (4456)

OpenSource

PR Analysis (938)
vLLM (71)
SGLang (130)
llm-compressor (45)

Python

PEP (650)

AI/ML

Review (4456)

OpenSource

PR Analysis (938)
vLLM (71)
SGLang (130)
llm-compressor (45)

홈
#Knowledge Boundary

#Knowledge Boundary

2개의 포스트

[논문리뷰] SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

본 논문은 Agentic Search 시스템에서 발생하는 심각한 Over-search 문제를 해결하기 위해 SAAS 프레임워크를 제안합니다.

#Review #Agentic Search #Reinforcement Learning #Over-Search Mitigation #Knowledge Boundary #Search Efficiency #Reward Hacking

2026년 5월 31일댓글 수 로딩 중

[논문리뷰] TruthRL: Incentivizing Truthful LLMs via Reinforcement Learning

대규모 언어 모델(LLM)의 고질적인 문제인 환각(Hallucination) 을 줄이고 진실성(Truthfulness) 을 높이는 것을 목표로 합니다.

#Review #LLM Hallucination #Truthfulness #Reinforcement Learning #Ternary Reward #Abstention #Knowledge Boundary #GRPO #RLHF

2025년 10월 1일댓글 수 로딩 중

AI Review Python PEP PR Analysis RSS GitHub

© 2026 secrett2633. All rights reserved.