[논문리뷰] Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering본 논문은 지식 집약적 QA 작업에서 LLM의 사실적 정확도를 높이기 위한 효율적인 보상 신호가 부족하다는 점을 문제로 지적합니다.#Review#Reinforcement Learning#Factuality#Process Supervision#Wikipedia#Co-occurrence#Large Language Models#GRPO2026년 5월 28일댓글 수 로딩 중
[논문리뷰] WildGraphBench: Benchmarking GraphRAG with Wild-Source Corpora기존 GraphRAG 벤치마크들이 짧고 정제된 문단에 의존하여 실제와 같은 긴 컨텍스트 및 대규모 이질적 문서 환경에서의 성능 평가에 미흡하다는 문제점을 해결하고자 합니다.#Review#GraphRAG#Benchmarking#Retrieval-Augmented Generation#Wild-Source Corpora#Multi-document Aggregation#Heterogeneous Data#Wikipedia#Long-Context Reasoning2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중