[논문리뷰] SafeDiffusion-R1: Online Reward Steering for Safe Diffusion Post-Training본 논문은 기존의 T2I 모델 안전성 확보 방식들이 가진 데이터 의존성과 모델 성능 저하 문제를 해결하고자 합니다.#Review#Diffusion Models#Safety Alignment#Online Reinforcement Learning#GRPO#CLIP#Concept Erasure2026년 5월 18일댓글 수 로딩 중