[논문리뷰] Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents본 논문은 현대의 LLM 에이전트가 단일 점수 기반의 정적 리더보드로는 충분히 평가될 수 없으며, 이로 인해 Rank Instability가 발생한다는 점을 지적합니다.#Review#LLM Agents#Predictive Validity#Benchmark#Evaluation#Out-of-Distribution#MCP#Leaderboard2026년 6월 18일댓글 수 로딩 중