#Content Moderation

3개의 포스트

[논문리뷰] A Systematic Study of Cross-Modal Typographic Attacks on Audio-Visual Reasoning

본 논문은 오디오-시각적 MLLM이 서로 다른 모달리티 간의 정보 불일치에 노출되었을 때 발생하는 취약점을 체계적으로 분석한다.

#Review #Multi-modal Large Language Models #Audio Typography #Adversarial Attack #Cross-modal Robustness #Semantic Steering #Safety Application #Content Moderation

2026년 4월 8일

[논문리뷰] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning

온라인 밈(meme)에서 암묵적이고 문화적으로 민감한 다크 유머를 이해하고 탐지하는 문제를 해결하는 것을 목표로 합니다. 기존 자원 및 방법론의 부족을 다루기 위해 다중모드 콘텐츠에서 다크 유머의 존재, 타겟 범주 및 강도를 식별하는 포괄적인 프레임워크를 제시합니다.

#Review #Dark Humor Detection #Multimodal Reasoning #Vision-Language Models (VLMs)#Iterative Reasoning Refinement #Meme Analysis #Content Moderation #Cross-Modal Attention #Dataset Annotation

2025년 9월 9일

[논문리뷰] Personalized Safety Alignment for Text-to-Image Diffusion Models

현재 텍스트-투-이미지(T2I) 확산 모델의 안전 메커니즘이 사용자의 다양한 연령, 정신 건강, 개인 신념 등의 선호도를 고려하지 않고 일률적인 기준을 적용하여 발생하는 한계를 해결하고자 합니다.

#Review #Personalized Safety Alignment #Text-to-Image Diffusion Models #DPO #User Preferences #Content Moderation #Generative AI #Cross-Attention #Safety Alignment

2025년 8월 5일