[논문리뷰] RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation본 논문은 기존의 ICU 벤치마크들이 임상 의사결정을 단순한 정적 문제로 치부하거나, 과거 임상 기록을 그대로 정답으로 간주하는 'Behavior Imitation' 오류에 빠져 있다는 점을 지적한다.#Review#LLM Agents#ICU#Clinical Decision Support#Hindsight-Annotated Benchmark#Structured Memory#Sequential Decision-Making2026년 5월 13일댓글 수 로딩 중