[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
링크: 논문 PDF로 바로 열기
저자: Yutao Wu, Yixu Wang, Xingjun Ma, xinwang22, DobyXu
핵심 연구 목표
본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다. 단일 모달리티나 특정 위협 모델에 국한된 기존 평가의 한계를 극복하고, 모델의 실제 위험을 정확히 파악하며 책임 있는 모델 개발 및 배포를 위한 근거를 제시하고자 합니다.
핵심 방법론
연구는 언어 전용, 비전-언어, 이미지 생성 등 세 가지 주요 사용 모드에 걸쳐 통합된 평가 프로토콜 을 적용했습니다. 이 프로토콜은 벤치마크 평가, 확립된 탈옥(jailbreak) 공격(적대적 평가), 18개 언어에 대한 다국어 평가, 규제 준수 평가 를 포함합니다. NIST AI RMF, EU AI Act, MAS FEAT 와 같은 주요 규제 프레임워크를 기반으로 모델의 준수 여부를 평가하여 안전성 리더보드와 모델 안전성 프로필을 도출했습니다.
주요 결과
GPT-5.2 는 벤치마크 평가에서 91.59% , 적대적 강건성에서 54.26% , 다국어 안전성에서 77.50% , 규제 준수에서 90.22% 를 기록하며 모든 평가 방식에서 일관되게 강력하고 균형 잡힌 안전 성능을 보였습니다. 다른 모델들은 벤치마크 정렬, 적대적 강건성, 다국어 일반화 및 규제 준수 간에 뚜렷한 상충 관계 를 보였습니다. 특히 언어 및 비전-언어 양쪽에서 적대적 평가 시 모든 모델이 표준 벤치마크 결과에도 불구하고 상당히 성능이 저하 되는 취약점을 드러냈습니다.
AI 실무자를 위한 시사점
이 보고서는 최신 AI 모델의 안전성이 모달리티, 언어, 평가 방식에 따라 다양하게 형성되는 다차원적 특성 을 가짐을 명확히 보여줍니다. AI 실무자들은 단일 지표가 아닌 표준화된 다차원 안전성 평가 를 통해 모델의 실제 위험을 정확히 이해하고, 벤치마크 성능에만 의존하지 않는 강건한 안전 메커니즘 을 구축해야 합니다. 특히 적대적 공격과 복잡한 규제 환경에 대한 모델의 취약점을 강화 하는 것이 책임 있는 AI 개발의 핵심 과제입니다.
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
Review 의 다른글
- 이전글 [논문리뷰] TranslateGemma Technical Report
- 현재글 : [논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5
- 다음글 [논문리뷰] Action100M: A Large-scale Video Action Dataset