[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Text-to-Audio-Video Generation#Multimodal Evaluation#Benchmark#MLLM-as-a-Judge#Cross-modal Alignment#Instruction Following#Perceptual Realism#Audio Realism2025년 12월 24일댓글 수 로딩 중