[논문리뷰] DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation본 논문은 심층 연구 시스템이 생성하는 길고 복잡한 보고서의 평가가 어렵다는 문제점을 해결하고자 합니다. 기존 벤치마크는 수동 주석 작업이 많거나, 고정된 평가 차원에 의존하거나, 인용되지 않은 사실을 신뢰성 있게 검증하지 못하는 한계가 있었습니다.#Review#Agentic AI#Deep Research Systems#Automated Evaluation#Task Construction#Fact-Checking#LLM Benchmarking#Adaptive Evaluation2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking본 논문은 기존 벤치마크가 클레임 검증에만 초점을 맞춰 LLM의 사실 확인 워크플로우 전반(클레임 추출 및 증거 검색 포함)을 간과하는 문제를 해결하고자 합니다.#Review#Fact-Checking#Large Language Models (LLMs)#Benchmarking#Multi-agent System#Stage-wise Evaluation#Claim Evolution#Trustworthy AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.#Review#LLM Hallucination Detection#Explainable AI#Faithfulness Evaluation#Data Augmentation#Reinforcement Learning#Fact-Checking2025년 12월 23일댓글 수 로딩 중
[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.#Review#Fact-Checking#Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement#Latent Space#Disentanglement#Steering Vectors#Misinformation2025년 12월 4일댓글 수 로딩 중