#Emergent Robustness

1개의 포스트

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일