[논문리뷰] InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem이 논문은 대규모 언어 모델(LLM)에 의해 가속화된 연구 아이디어 생성 속도에 비해 평가 역량이 뒤처지는 문제를 해결하고자 합니다. 기존 아이디어 평가 방식이 좁은 지식 기반, 합의 부족, 단일 차원 평가 등의 한계를 가지며, LLM 자체의 편향성 또한 문제가 됨을 지적합니다.#Review#Research Idea Evaluation#Large Language Models (LLMs)#Knowledge Grounding#Multi-Perspective Reasoning#Agent-based Systems#Scientific Discovery#Peer Review Simulation#Automated Evaluation2026년 2월 16일댓글 수 로딩 중
[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality이 논문은 대규모 언어 모델(LLM)이 다양한 시나리오에서 사실적으로 정확한 텍스트를 생성하는 능력을 포괄적으로 평가하기 위한 새로운 온라인 리더보드 스위트인 The FACTS Leaderboard 를 소개합니다.#Review#LLM Evaluation#Factuality Benchmark#Multimodal AI#Knowledge Grounding#Parametric Knowledge#Retrieval Augmented Generation#Automated Scoring2025년 12월 11일댓글 수 로딩 중
[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.#Review#Clinical Dialogue#LLM Agents#Healthcare AI#Agentic Paradigm#Medical Decision Support#Knowledge Grounding#AI Safety#Workflow Automation2025년 12월 10일댓글 수 로딩 중