[논문리뷰] Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality본 논문은 대규모 언어 모델(LLM)의 사실성(factuality) 오류 원인을 '지식 누락(encoding failure, empty shelves)'과 '인코딩된 사실 접근 제한(recall failure, lost keys)'으로 구분하여 명확히 규명하는 것을 목표로 합니다.#Review#LLM Factuality#Knowledge Profiling#Encoding vs. Recall#WikiProfile Benchmark#Inference-time Computation#Reversal Curse#Long-tail Knowledge#Parametric Knowledge2026년 2월 18일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeLarge Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중