[논문리뷰] Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

2026년 6월 2일수정: 2026년 6월 2일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Seojeong Park, Jiho Choi, Junyong Kang, Seonho Lee, Jaeyo Shin, Hyunjung Shim

1. Key Terms & Definitions (핵심 용어 및 정의)

Perceptual Judgment Bias: Multimodal Large Language Models(MLLMs)가 시각적 정보와 텍스트 설명 간의 불일치를 판단할 때, 시각적 증거보다 언어적 논리나 플라시보적인 텍스트 큐(Cue)를 우선시하여 잘못된 판정을 내리는 현상입니다.
PPJD (Perceptually Perturbed Judgment Dataset): 시각적 속성이 변조된 응답들을 포함하여, 모델이 시각적 오류와 추론 오류를 명확히 구분하고 검증 가능한 판단을 내리도록 설계된 데이터셋입니다.
GRPO (Group Relative Policy Optimization): 명시적인 Value network 없이 그룹 내 응답들의 상대적인 이점을 활용하여 효율적이고 안정적으로 보상 모델을 학습시키는 강화학습 알고리즘입니다.
Batch Ranking Reward: 단순한 Pairwise 비교를 넘어, 정답 응답과 변조된 응답들 사이의 순위(Ranking)를 검증함으로써 전역적이고 일관된 평가 능력을 강화하는 보상 체계입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 MLLM이 평가자(Judge)로 활용될 때 발생하는 Perceptual Judgment Bias를 해결하여 평가의 신뢰성을 제고하고자 합니다. 기존 MLLM 평가자들은 시각적으로 잘못된 응답임에도 불구하고 논리적으로 그럴듯한 텍스트가 포함되어 있으면 높은 점수를 부여하는 경향이 있습니다 [Figure 1]. 이러한 Bias는 크게 두 가지 실패 모드로 나뉩니다: (a) 모델의 시각적 인지 능력 부족으로 인한 오판, (b) 모델이 올바르게 인지했음에도 텍스트 큐에 의존하여 판단하는 응답 고착화(Response Anchoring) 현상입니다 [Table 1]. 따라서 시각적 근거를 우선시하며 추론의 일관성을 검증할 수 있는 새로운 평가 모델 학습 프레임워크가 필수적입니다.

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 Perception-Judge라는 프레임워크를 통해 시각적 기반 평가를 강화하는 학습 파이프라인을 제안합니다 [Figure 3]. 우선 시각적으로 변조된 응답들이 포함된 PPJD를 구축하여 시각적 오류와 추론 오류가 분리된 학습 환경을 조성합니다. 이후 GRPO를 활용하여 구조적 타당성(Format)과 정교한 Batch Ranking Reward를 최적화함으로써, 모델이 시각적 일관성에 따라 올바른 순위를 매기도록 학습합니다 [Figure 3]. 실험 결과, 제안 모델인 Perception-Judge-Flex-7B는 기존 대비 시각적 편향을 획기적으로 줄였으며, 정량적 지표에서 Flex-Judge-7B 대비 Single-score 정확도를 15% 향상시켰습니다 [Table 1]. 또한, Qwen3-VL-4B-Thinking 모델에서 Batch-level 메트릭을 11% 개선하며 우수한 시각적 Grounding 능력을 입증하였습니다 [Figure 2].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 MLLM 평가자의 핵심 취약점인 시각적 인지 편향을 정의하고, 이를 해결하기 위한 데이터 기반 보상 학습 프레임워크를 정립하였습니다. PPJD와 GRPO 기반의 학습 방식은 MLLM이 단순한 언어적 플라시보에 의존하지 않고 실제 시각적 정보에 기반하여 엄격한 평가를 수행하도록 유도합니다. 이 연구는 고비용의 인간 평가를 대체할 수 있는 고성능, 고신뢰성의 자동화된 평가 시스템을 구축하는 데 중요한 기술적 토대를 제공하며, 향후 시각적 추론과 신뢰성이 중요한 다양한 Multimodal AI 서비스의 품질 향상에 기여할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection
현재글 : [논문리뷰] Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling
다음글 [논문리뷰] NVIDIA OmniDreams: Real-Time Generative World Model for Closed-Loop Autonomous Vehicle Simulation