[논문리뷰] ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning
링크: 논문 PDF로 바로 열기
메타데이터
저자: Juncheng Wu, Letian Zhang, Yuhan Wang, Haoqin Tu, Hardy Chen, Zijun Wang, Cihang Xie, Yuyin Zhou
1. Key Terms & Definitions (핵심 용어 및 정의)
- ClinSeekAgent: 임상 의사결정 지원을 위해 수동적인 evidence 소비가 아닌, EHR, 웹 검색, 영상 분석 도구를 사용하여 능동적으로 근거를 탐색하고 통합하는 자동화된 agentic framework.
- Curated Input: 기존 연구(Baseline)에서 사용되던 방식으로, 모델의 추론 이전에 사람이 미리 선별하거나 규칙 기반으로 패키징한 임상 근거를 입력으로 제공하는 설정.
- ClinSeek-Bench: 본 연구에서 구축한 평가 벤치마크로, 동일한 임상 과제에 대해 Curated Input 방식과 ClinSeekAgent를 통한 Automated Evidence-Seeking 방식의 성능을 비교하기 위해 설계됨.
- Trajectory Distillation: 고성능 Teacher 모델(예: Claude Opus 4.6)이 ClinSeekAgent를 통해 생성한 고품질의 evidence 탐색 경로(trajectory)를 경량 모델에 학습시켜, 더 작은 오픈 소스 모델이 고도의 agentic 역량을 갖추도록 하는 훈련 방식.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 연구는 기존 의료용 LLM 및 agentic 시스템이 이미 정제된 evidence에만 의존하는 수동적 패러다임에 갇혀 있다는 문제의식에서 출발한다. 실제 임상 현장에서는 의사가 다양한 데이터 소스에서 증거를 직접 탐색하고, 정보를 업데이트하며, 파편화된 정보를 종합하여 판단해야 하지만, 현재의 벤치마크는 인간의 사전 개입으로 선별된 컨텍스트만을 제공하는 한계가 있다 [Figure 1]. 이러한 정적인 설정은 임상적으로 중요한 장기 추적 데이터나 복합적인 multimodal 근거를 놓칠 위험이 크다. 따라서 본 연구는 실시간으로 raw 데이터에 접근하여 능동적으로 근거를 도출할 수 있는 일반적인 agentic 프레임워크인 ClinSeekAgent를 제안한다.

Figure 1 — ClinSeekAgent 전체 아키텍처
3. Method & Key Results (제안 방법론 및 핵심 결과)
본 논문은 CLINSEEKAGENT가 의료 지식 베이스, 원시 EHR 데이터, 의료 영상 도구(DICOM 분석 등)를 통합하여 복합적인 임상 질문에 대응하는 agentic 파이프라인을 제안한다. 이 시스템은 20개의 도구를 사용하여 필요한 정보를 반복적으로 검색하고, 새로운 정보에 따라 가설을 수정하며, 최종적으로 임상 결정을 내리는 구조이다 [Figure 1].
실험 결과, ClinSeekAgent는 강력한 agentic 모델과 결합되었을 때 Curated Input 대비 유의미한 성능 향상을 보였다. text-only EHR 과제에서 Claude Opus 4.6 모델은 F1 스코어가 60.0에서 63.2로 향상되었으며, 특히 위험 예측(risk prediction) 과제에서 그 효과가 두드러졌다 [Table 1]. 또한, multimodal 과제에서는 더욱 큰 폭의 개선이 관찰되었는데, Claude Opus 4.6은 47.5에서 62.6으로 15.1포인트 개선되는 성과를 거두었다 [Table 2]. 이외에도 훈련 파이프라인으로 활용된 ClinSeek-35B-A3B 모델은 기존 Qwen3.5-35B-A3B 베이스라인 대비 평균 F1을 22.1에서 34.0으로 크게 향상하며 오픈 소스 모델 중 최고 수준의 성능을 기록했다 [Figure 2].

Figure 2 — 모델 성능 비교
4. Conclusion & Impact (결론 및 시사점)
본 논문은 임상 AI가 수동적인 데이터 소비에서 능동적인 증거 탐색으로 전환되어야 함을 입증하였다. ClinSeekAgent는 inference-time에서의 즉각적인 성능 향상뿐만 아니라, 고품질 trajectory distillation을 통한 오픈 소스 모델의 agentic 능력 향상에도 효과적임을 보여주었다. 본 연구는 임상 데이터가 파편화된 실제 의료 환경에서 더 견고하고 유연한 AI 에이전트를 구축하기 위한 새로운 방법론적 기준을 제시하며, 향후 더 복잡하고 긴 호흡의 임상 추론 에이전트 연구에 중요한 기반을 마련하였다.

Figure 3 — 텍스트 기반 과제 세부 성능
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
- [논문리뷰] CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval
- [논문리뷰] AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios
- [논문리뷰] RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation
- [논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning
Review 의 다른글
- 이전글 [논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion
- 현재글 : [논문리뷰] ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning
- 다음글 [논문리뷰] DecQ: Detail-Condensing Queries for Enhanced Reconstruction and Generation in Representation Autoencoders
댓글