#VLM Evaluation

3개의 포스트

[논문리뷰] Video Reality Test: Can AI-Generated ASMR Videos fool VLMs and Humans?

본 논문은 최근 AI 생성 비디오의 높은 현실성으로 인해 야기되는 진위 판별 문제를 해결하고자 합니다.

#Review #AIGC Detection #ASMR Videos #VLM Evaluation #VGM Realism #Audio-Visual Consistency #Perceptual Fidelity #Adversarial Benchmark #Deepfake Detection

2025년 12월 16일

[논문리뷰] Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark

본 논문은 최신 비디오 생성 모델 이 단순한 시각적 품질을 넘어 실제 세계의 물리 법칙과 연속성을 이해하며 추론하는 Chain-of-Frames (CoF) 추론 능력 을 체계적으로 평가할 수 있는 벤치마크의 부재를 해결하는 것을 목표로 합니다.

#Review #Generative Visual Reasoning #Chain-of-Frames (CoF)#Video Generation Models #World Simulators #AI Benchmarking #Cognitive Reasoning #VLM Evaluation

2025년 11월 18일

[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

기존 Vision-and-Language Model (VLM) 평가 벤치마크들이 다중 턴 대화 시나리오의 깊이와 폭을 충분히 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Turn Conversation #VLM Evaluation #Benchmark #Vision and Language Models #Contextual Understanding #Checklist-based Evaluation #Interactive AI

2025년 10월 21일