[논문리뷰] Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO이 논문은 Large Language Models (LLMs) 의 후처리 훈련에 사용되는 분산형 Group Relative Policy Optimization (GRPO) 시스템의 보안 취약점을 탐구합니다.#Review#Decentralized RL#GRPO#LLM Post-training#Adversarial Attacks#Data Poisoning#Defense Mechanisms#In-context Attack#Out-of-context Attack2025년 11월 13일댓글 수 로딩 중