#LLM Security

3개의 포스트

[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing

Marten van Dijk이 arXiv에 게시한 'On the Evidentiary Limits of Membership Inference for Copyright Auditing' 논문에 대한 자세한 리뷰입니다.

#Review #Membership Inference Attacks #Copyright Auditing #Large Language Models #Adversarial Robustness #Paraphrasing #Sparse Autoencoders #Semantic Preservation #LLM Security

2026년 1월 20일

[논문리뷰] Soft Instruction De-escalation Defense

arXiv에 게시된 'Soft Instruction De-escalation Defense' 논문에 대한 자세한 리뷰입니다.

#Review #Prompt Injection #LLM Security #Agentic Systems #Iterative Sanitization #Instruction Control #Adversarial Robustness #Large Language Models

2025년 10월 27일

[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

Jamie Hayes이 arXiv에 게시한 'Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated' 논문에 대한 자세한 리뷰입니다.

#Review #LLM Security #Data Poisoning #Chain-of-Thought #Reasoning Models #Backdoor Attacks #CoT Unfaithfulness #Emergent Robustness

2025년 9월 12일