[논문리뷰] A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks본 논문은 기존의 툴 사용 에이전트 벤치마크가 고정된 시나리오에 의존함에 따라 발생하는 심각한 포화(Saturation) 현상과 벤치마크 구축의 높은 노동 집약적 비용 문제를 해결하고자 합니다.#Review#Agent Benchmarks#Tool-use#Task Synthesis#Coverage#Difficulty#Adaptive Contrastive n-gram Model2026년 6월 1일댓글 수 로딩 중