본문으로 건너뛰기

#Evaluation Benchmark

18개의 포스트

[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

댓글 수 로딩 중

[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

댓글 수 로딩 중

[논문리뷰] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

댓글 수 로딩 중

[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

댓글 수 로딩 중

[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes

댓글 수 로딩 중

[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?

댓글 수 로딩 중

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

댓글 수 로딩 중

[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

댓글 수 로딩 중

[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured Visuals

댓글 수 로딩 중

[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!

댓글 수 로딩 중