[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-Following현재 Speech Large Language Models (SLLMs) 평가 시 주로 사용되는 텍스트 프롬프트의 한계를 극복하고, 현실적인 음성 기반 명령어 환경 에서 SLLM의 성능을 평가할 수 있는 데이터셋을 구축하는 것이 목표입니다.#Review#Speech Language Models#Instruction Following#Multilingual Dataset#Spoken Prompts#Benchmark#SLLM Evaluation#Prompt Diversity2026년 3월 10일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중