#Hindsight-Annotated Benchmark

1개의 포스트

[논문리뷰] RealICU: Do LLM Agents Understand Long-Context ICU Data? A Benchmark Beyond Behavior Imitation

본 논문은 기존의 ICU 벤치마크들이 임상 의사결정을 단순한 정적 문제로 치부하거나, 과거 임상 기록을 그대로 정답으로 간주하는 'Behavior Imitation' 오류에 빠져 있다는 점을 지적한다.

#Review #LLM Agents #ICU #Clinical Decision Support #Hindsight-Annotated Benchmark #Structured Memory #Sequential Decision-Making

2026년 5월 13일