[논문리뷰] Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty?본 연구는 기존의 이미지 미학 평가 방식인 Scalar Score 예측이 인간의 실제 비교 선호도를 충실히 반영하지 못한다는 문제를 제기합니다. 기존 연구들은 독립적인 점수 매기기를 통해 순위를 도출하는데, 이는 annotator 간의 의견 불일치와 모호한 미적 기준을 야기합니다.#Review#Multimodal Large Language Models#Visual Aesthetic Benchmark#Comparative Ranking#Expert Consensus#Aesthetic Evaluation#Fine-tuning2026년 5월 13일댓글 수 로딩 중