[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.#Review#AI Assistants#Multimodal Benchmarking#Audio Understanding#Speech Synthesis#Vision-Language Models#Role-play#Safety#Robustness2025년 9월 29일댓글 수 로딩 중
[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsAI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.#Review#Human Agency#AI Assistants#LLM Evaluation#Benchmark#Sociotechnical AI#AI Alignment#Scalable Evaluation2025년 9월 11일댓글 수 로딩 중