[논문리뷰] LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

2026년 6월 23일수정: 2026년 6월 23일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Shihao Xu, Tiancheng Zhou, Jiatong Ma, et al.

## 1. Key Terms & Definitions (핵심 용어 및 정의)

LingxiDiag-16K: 16,000개의 EMR(Electronic Medical Record) 데이터를 기반으로 합성된 중국어 정신과 상담 데이터셋으로, 실제 임상 현장의 인구통계학적 및 진단 분포를 재현함.
Multi-Agent Framework: 상담의 각 역할을 시뮬레이션하기 위해 구축된 프레임워크로, 환자 정보를 모사하는 Patient Agent, 진단 전략을 수행하는 Doctor Agent, 그리고 최종 판단을 내리는 Diagnosis Agent로 구성됨.
LLM-as-a-Judge: 상담의 품질(정보 완전성, 증상 탐색 깊이 등)을 평가하기 위해 여러 LLM을 앙상블하여 리커트 척도(Likert scale)로 점수를 매기는 자동 평가 프로토콜.
APA-Guided Strategy: 미국 정신의학회(APA) 가이드라인을 기반으로 진단 단계를 5단계(스크리닝, 평가, 심층 분석, 위험 평가, 종료)로 구조화한 상담 전략.

## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 본 논문은 기존 정신과 AI 벤치마크들이 실제 임상 현장의 다학제적 진단 요구를 반영하지 못하고 있다는 문제의식에서 출발한다 [Figure 1]. 기존 연구들은 주로 정적인 Q&A 방식에 국한되어 있어, 실제 진단 과정에 필수적인 동적 대화와 정보 수집 전략을 평가하는 데 한계가 있었다. 또한, 임상적으로 검증된 진단 라벨이 부재하여 모델의 실제 진단 능력을 신뢰성 있게 측정하기 어려웠다. 이러한 한계를 극복하기 위해 저자들은 동적 대화 환경과 정밀한 진단 라벨을 모두 포함하는 포괄적인 평가 프레임워크를 제안한다.

## 3. Method & Key Results (제안 방법론 및 핵심 결과) 저자들은 LingxiDiag-16K라는 대규모 합성 데이터셋을 구축하고, 환자-의사-진단 에이전트 간의 상호작용을 통해 LLM의 진단 성능을 측정하는 벤치마크 환경을 설계했다. 진단 능력 평가를 위해 이진 분류, 4-way 분류(공존 질환 포함), 12-way ICD-10 다중 분류 등 난이도가 다른 세 가지 Task를 도입하였다 [Table 2]. 주요 실험 결과, 대부분의 LLM이 단순 우울증-불안 장애 이진 분류에서는 최대 92.3%의 정확도를 보였으나, 복합 질환인 우울-불안 공존 인식에서는 43.0%, 12가지 범주에 걸친 차별적 진단에서는 28.5% 수준으로 성능이 급격히 저하되었다. 또한, 동적 상담 환경에서의 성능이 정적 평가보다 낮게 나타났는데, 이는 모델의 비효율적인 정보 수집 전략이 하위 진단 추론에 부정적인 영향을 미침을 시사한다 [Table 7]. 마지막으로, LLM-as-a-Judge로 평가한 상담 품질이 실제 진단 정확도와는 낮은 상관관계를 보였으며, 이는 대화의 구조가 올바른 진단을 보장하지 않음을 시사한다.

## 4. Conclusion & Impact (결론 및 시사점) 본 논문은 정신과 진단을 위한 최초의 실데이터 기반 다중 에이전트 벤치마크인 LingxiDiagBench를 성공적으로 구축하였다. 이 연구는 LLM의 진단 능력과 상담 전략 간의 괴리를 명확히 규명하였으며, 특히 공존 질환 인식 및 정밀한 차별적 진단에 있어 현재 SOTA 모델들의 한계를 입증하였다. 본 벤치마크 프레임워크는 향후 정신과 보조 진단 AI의 신뢰성을 높이고, 안전하고 효과적인 임상 도구 개발을 위한 표준적인 평가 지표로 활용될 것으로 기대된다.

Part 2: 중요 Figure 정보

Figure 1: LingxiDiagBench 프레임워크 개요

Figure 1 — LingxiDiagBench 프레임워크 개요

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Holistic Data Scheduler for LLM Pre-training via Multi-Objective Reinforcement Learning
현재글 : [논문리뷰] LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis
다음글 [논문리뷰] MemGUI-Agent: An End-to-End Long-Horizon Mobile GUI Agent with Proactive Context Management

[논문리뷰] LingxiDiagBench: A Multi-Agent Framework for Benchmarking LLMs in Chinese Psychiatric Consultation and Diagnosis

메타데이터

Part 2: 중요 Figure 정보

댓글

관련 포스트

Review 의 다른글