#Holistic Evaluation

2개의 포스트

[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models

오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.

#Review #Audio-Language Models #Holistic Evaluation #Benchmarking #Multimodality #Fairness #Robustness #Reasoning #Bias Detection

2025년 9월 1일

[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.

#Review #Audio Intelligence #Multimodal AI #Benchmark #Audio-Language Models #Holistic Evaluation #Reasoning #Long-Form Audio #Multicultural Music

2025년 8월 20일