[논문리뷰] Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks의료 분야에서 전문 임상 AI 도구들이 일반 목적의 대규모 언어 모델(LLM)보다 안전하고 신뢰할 수 있다는 주장에도 불구하고, 독립적이고 정량적인 평가가 부족하다는 문제를 해결하고자 합니다.#Review#Large Language Models#Clinical AI#Medical Benchmarks#AI Evaluation#Medical Decision Support#MedQA#HealthBench#Generalist AI2025년 12월 1일댓글 수 로딩 중