#AI Assistants

2개의 포스트

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

AI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.

#Review #Human Agency #AI Assistants #LLM Evaluation #Benchmark #Sociotechnical AI #AI Alignment #Scalable Evaluation

2025년 9월 11일