[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .#Review#Agentic Data Analysis#Long-Horizon#State Management#Benchmark#LLM Agents#State-Evolution2026년 5월 31일댓글 수 로딩 중