#Perceptual Realism

1개의 포스트

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Text-to-Audio-Video Generation #Multimodal Evaluation #Benchmark #MLLM-as-a-Judge #Cross-modal Alignment #Instruction Following #Perceptual Realism #Audio Realism

2025년 12월 24일