[논문리뷰] PerceptionRubrics: Calibrating Multimodal Evaluation to Human Perception본 논문은 기존의 MLLM 벤치마크가 포화 상태에 이르렀음에도 불구하고, 실제 환경에서의 모델 성능은 여전히 취약하다는 '평가 역설(Evaluation Paradox)'을 해결하고자 합니다 .#Review#Multimodal Large Language Models#Perception Evaluation#Rubric-Based Auditing#Gated Scoring#Visual Grounding#Human Alignment2026년 7월 1일댓글 수 로딩 중