#Gated Scoring

1개의 포스트

[논문리뷰] PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception

본 논문은 기존의 MLLM 벤치마크가 포화 상태에 이르렀음에도 불구하고, 실제 환경에서의 모델 성능은 여전히 취약하다는 '평가 역설(Evaluation Paradox)'을 해결하고자 합니다 .

#Review #Multimodal Large Language Models #Perception Evaluation #Rubric-Based Auditing #Gated Scoring #Visual Grounding #Human Alignment

2026년 7월 1일