#Self-Rewarded Learning

1개의 포스트

[논문리뷰] SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization

본 논문은 멀티모달 대규모 언어 모델(MLLMs)이 복잡한 텍스트-이미지 상호작용에서 발생하는 구성적 안전 위험 과 취약한 안전 인식을 해결하고자 합니다.

#Review #Multimodal Safety Alignment #Rule-Governed RL #Self-Rewarded Learning #MLLM Safety #Policy Optimization #Safety Benchmarking #Compositional Robustness

2025년 11월 17일