[논문리뷰] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 텍스트-이미지 상호작용에서 발생하는 구성적 안전 위험 과 취약한 안전 인식을 해결하고자 합니다.#Review#Multimodal Safety Alignment#Rule-Governed RL#Self-Rewarded Learning#MLLM Safety#Policy Optimization#Safety Benchmarking#Compositional Robustness2025년 11월 17일댓글 수 로딩 중