#Performance Metrics

2개의 포스트

[논문리뷰] TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

본 논문은 LLM 에이전트의 Test-Time Improvement (TTI) 메커니즘이 성공하거나 실패하는 이유에 대한 이해 부족을 해결하고자 합니다.

#Review #LLM Agents #Test-Time Improvement #Diagnostic Evaluation #Trajectory Analysis #Performance Metrics #Behavior Adaptation #Memory Management #POMDP

2026년 2월 4일

[논문리뷰] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

AI 연구 에이전트의 성능에 있어 아이디어 다양성(ideation diversity)이 핵심 병목 현상인지를 규명하고, 에이전트 궤적의 성공 또는 실패를 좌우하는 요인을 이해하는 것을 목표로 합니다.

#Review #AI Research Agents #Ideation Diversity #MLE-bench #LLM Backbones #Agentic Scaffolds #Shannon Entropy #Machine Learning Engineering #Performance Metrics

2025년 11월 19일