[논문리뷰] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge본 연구는 29개의 기존 데이터셋에서 추출한 1,804개의 샘플을 바탕으로 9가지 유형의 편향을 분석하는 MM-JudgeBias 벤치마크를 구축하였다. 제안된 프레임워크는 각 샘플에 대해 편향되지 않은(unbiased) triplet과 편향을 주입한(biased) triplet을 생성하여 평가 결과의 차이를 비교한다.#Review#Multimodal Large Language Models#MLLM-as-a-Judge#Compositional Bias#Benchmark#Bias-Deviation#Bias-Conformity2026년 4월 21일댓글 수 로딩 중