[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

2026년 1월 6일수정: 2026년 1월 6일

링크: 논문 PDF로 바로 열기

저자: Mohammad Zia Ur Rehman, Sai Kartheek Reddy Kasu, Shashivardhan Reddy Koppula, Sai Rithwik Reddy Chirra, Shwetank Shekhar Singh, Nagendra Kumar

핵심 연구 목표

본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다. 기계 생성 설명과 인간 주석 설명 간의 불일치를 해소하고, 힌디어, 텔루구어, 영어에 걸쳐 인간 주석 합리화(rationales)를 포함하는 새로운 다국어 벤치마크를 제공하여 설명 가능한 HSD를 발전시키고자 합니다.

핵심 방법론

제안된 X-MuTeST 프레임워크는 두 단계의 훈련 방식을 사용합니다. 1단계에서는 모델의 어텐션이 인간 주석 합리화(human-annotated rationales) 에 의해 유도되며, 2단계에서는 n-그램 기반 설명 가능성 방법 에서 파생된 모델 생성 어텐션 타겟으로 대체되어 모델의 어텐션을 정제합니다. 최종 설명은 LLaMa-3.1 을 통한 프롬프트 기반 제로샷(prompt-based zero-shot) 방법 과 X-MuTeST의 n-그램 기반 설명 의 합집합 으로 생성됩니다.

주요 결과

X-MuTeST with LLM 은 다른 모든 비교 모델들을 일관되게 능가하는 성능을 보였습니다. 텔루구어 데이터셋에서 0.8881의 최고 정확도 , 0.8762의 F1 점수 , 0.6231의 토큰-F1 점수 를 달성했습니다. 힌디어 데이터셋에서는 0.8745의 최고 정확도 와 0.4344의 토큰-F1 점수 를 기록했으며, 영어 데이터셋에서도 가장 높은 분류 성능을 보였습니다. 또한, HateXplain 벤치마크에서 IOU-F1 9.2% , 토큰-F1 8.1% 향상 등 뛰어난 일반화 성능을 입증했습니다.

AI 실무자를 위한 시사점

본 연구는 저자원 언어 를 포함한 다국어 혐오 발언 탐지 시스템 구축에 있어 실용적이고 견고한 프레임워크를 제공합니다. 인간의 피드백과 LLM의 추론 능력 을 결합한 하이브리드 접근 방식은 더욱 신뢰할 수 있고 인간 친화적인 설명 을 생성할 수 있음을 보여주어, 민감한 도메인에서의 AI 시스템 배포에 중요한 시사점을 줍니다. 또한, 새롭게 구축된 토큰 수준 합리화가 포함된 벤치마크 데이터셋 은 향후 다국어 설명 가능한 AI(XAI) 연구 및 개발에 귀중한 자원이 될 것입니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision
현재글 : [논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework
다음글 [논문리뷰] E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models