[논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography

2026년 4월 16일수정: 2026년 4월 16일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

저자: Mélanie Roschewitz, Kenneth Styppa, Yitian Tao, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

RadAgent: 3D CT 영상을 단계적으로 분석하고 도구(Tool)를 활용하여 결과를 생성하도록 Reinforcement Learning(RL)로 훈련된 의료 AI 에이전트입니다.
CT-Chat: 3D CT 분석을 위한 베이스라인 모델로, RadAgent 내에서 초기 보고서 작성 및 Visual Question Answering(VQA) 도구로 활용됩니다.
GRPO (Group Relative Policy Optimization): RadAgent의 정책 모델을 훈련하기 위해 사용된 Reinforcement Learning 알고리즘입니다.
MCP (Model Context Protocol): 에이전트와 외부 도구 간의 표준화된 통신 및 도구 호출을 가능하게 하는 프로토콜입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 3D Vision-Language Models(VLM) 기반 CT 보고서 생성 시스템이 근거 없는 최종 결과만을 출력하여 의료진이 그 과정을 검증할 수 없는 '블랙박스'라는 한계점을 해결하고자 합니다. 기존 연구들은 훈련 과정 없이 프롬프트 설계에만 의존하여 복잡한 임상 환경에서의 다단계 추론과 도구 활용에 취약합니다. 따라서 저자들은 임상적으로 투명하고 신뢰할 수 있는 AI 진단 체계를 구축하기 위해, 도구 활용 과정을 추적할 수 있는 단계적 에이전트 시스템을 제안합니다 [Figure 1].

Figure 1: RadAgent 전체 아키텍처 및 훈련 루프

Figure 1 — RadAgent 전체 아키텍처 및 훈련 루프

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Reinforcement Learning을 통해 최적의 도구 사용 전략을 자동 학습하는 RadAgent 프레임워크를 제안합니다. RadAgent는 초기 보고서 초안을 작성한 후, 임상 진단 체크리스트를 기반으로 단계별 에이전트 루프를 거치며 필요한 도구를 호출하고 결과를 업데이트합니다 [Figure 1]. 저자들은 GRPO 알고리즘을 사용하여 보고 품질, 도구 성공률, 도구 사용의 일관성 및 체크리스트 준수 여부를 종합적으로 평가하는 보상 함수를 통해 모델을 최적화했습니다. 실험 결과, RadAgent는 베이스라인 대비 CT-RATE 테스트 세트에서 Macro-averaged F1 점수를 6.0점(36.4% 상대적 향상), Micro-averaged F1 점수를 5.4점(19.6% 상대적 향상) 개선하였습니다 [Figure 2]. 또한, 적대적 힌트 주입 실험에서 Robustness는 83.7%로 베이스라인(58.9%) 대비 24.7% 향상되었으며, Faithfulness 측면에서도 기존 VLM이 달성하지 못한 37.0%를 기록하며 높은 투명성을 입증하였습니다 [Figure 3].

Figure 2: CT 보고서 생성 품질 비교 결과

Figure 2 — CT 보고서 생성 품질 비교 결과

Figure 3: Robustness 및 Faithfulness 평가 결과

Figure 3 — Robustness 및 Faithfulness 평가 결과

4. Conclusion & Impact (결론 및 시사점)

RadAgent는 의료 AI 시스템이 추론 과정을 명시적으로 노출함으로써 더 신뢰할 수 있고 검증 가능한 의료 보고서를 생성할 수 있음을 보여줍니다. 특히, 복잡한 임상 실무의 다단계적 특성을 Reinforcement Learning으로 구현한 도구 사용 전략을 통해 베이스라인 모델을 능가하는 성과를 거두었습니다. 이 연구는 범용 에이전트 인터페이스와 전문 진단 도구를 결합하는 방식이 향후 임상 현장에서 AI의 투명성과 신뢰성을 확보하는 핵심적인 경로가 될 것임을 시사합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] OneHOI: Unifying Human-Object Interaction Generation and Editing
현재글 : [논문리뷰] RadAgent: A tool-using AI agent for stepwise interpretation of chest computed tomography
다음글 [논문리뷰] SuperLocalMemory V3.3: The Living Brain -- Biologically-Inspired Forgetting, Cognitive Quantization, and Multi-Channel Retrieval for Zero-LLM Agent Memory Systems