[논문리뷰] Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable RewardsRLVR(Reinforcement Learning from Verifiable Rewards)을 통해 강화된 대규모 언어 모델(LLMs)이 겪는 심각한 과신(over-confidence) 문제와 이로 인한 캘리브레이션 저하 를 해결하는 것이 목표입니다.#Review#Reinforcement Learning#LLM Calibration#Over-confidence#Decoupled Optimization#Verifiable Rewards#Policy Optimization#Expected Calibration Error2026년 3월 10일댓글 수 로딩 중
[논문리뷰] QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation대규모 언어 모델(LLM)의 내부 신호(예: logits, 엔트로피)가 부정확한 예측에 대해 종종 높은 확신을 보이는 등 신뢰할 수 없다는 문제점을 해결하고자 합니다.#Review#Dynamic RAG#Hallucination Detection#Corpus Statistics#Uncertainty Quantification#Pre-training Data#LLM Calibration#Infini-gram#Multi-hop QA2025년 12월 22일댓글 수 로딩 중
[논문리뷰] CritiCal: Can Critique Help LLM Uncertainty or Confidence Calibration?본 연구는 대규모 언어 모델(LLM)의 자연어 기반 신뢰도 표현(verbalized confidence) 의 정확한 보정(calibration)을 개선하는 것을 목표로 합니다.#Review#LLM Calibration#Confidence Calibration#Uncertainty Estimation#Critique Learning#Supervised Fine-Tuning#Natural Language Processing#Self-Critique2025년 11월 9일댓글 수 로딩 중