#Task Complexity

2개의 포스트

[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.

#Review #Deep Research Agents #LLM Evaluation #Benchmark #Rubrics #Multi-step Reasoning #Cross-document Synthesis #AI Performance #Task Complexity

2025년 11월 13일

[논문리뷰] VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications

기존 LLM 에이전트 벤치마크들이 실제 환경의 복잡성(방대한 정보 처리, 다양한 리소스 활용, 동적인 사용자 상호작용)을 제대로 포착하지 못하는 문제를 해결합니다. 본 논문은 VitaBench 를 통해 현실 세계의 다양한 시뮬레이션 환경에서 에이전트의 능력을 평가하고, 이러한 격차를 해소하는 것을 목표로 합니다.

#Review #LLM Agents #Benchmarking #Interactive Tasks #Real-world Applications #Tool Use #Multi-turn Conversation #Task Complexity

2025년 10월 1일