[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-FollowingMarek Kasztelnik이 arXiv에 게시한 'Do What I Say: A Spoken Prompt Dataset for Instruction-Following' 논문에 대한 자세한 리뷰입니다.#Review#Speech Language Models#Instruction Following#Multilingual Dataset#Spoken Prompts#Benchmark#SLLM Evaluation#Prompt Diversity2026년 3월 10일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding TasksarXiv에 게시된 'VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중