[논문리뷰] Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection본 논문은 HuggingFace와 같은 공공 모델 허브에서 배포되는 LoRA 어댑터가 데이터 오염(Poisoning)을 통해 치명적인 백도어에 취약할 수 있다는 점을 지적합니다.#Review#LoRA Adapter#Backdoor Attack#Data Poisoning#Behavioral Detection#Weight-Level Detection#LLM Security2026년 5월 28일댓글 수 로딩 중
[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright Auditing본 논문은 LLM(Large Language Model) 학습 데이터의 저작권 감사에서 MIA(Membership Inference Attack) 가 신뢰할 수 있는 기술적 증거로 사용될 수 있는지 여부를 조사합니다.#Review#Membership Inference Attacks#Copyright Auditing#Large Language Models#Adversarial Robustness#Paraphrasing#Sparse Autoencoders#Semantic Preservation#LLM Security2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated본 논문은 대규모 언어 모델(LLM)의 단계별 추론(Chain-of-Thought, CoT) 능력 이 새로운 유형의 데이터 포이즈닝 공격 기회를 제공함과 동시에, 이러한 공격을 최종 답변으로 유도하는 것을 복잡하게 만드는 예상치 못한 견고성을 생성한다는 점을 탐구합니다.#Review#LLM Security#Data Poisoning#Chain-of-Thought#Reasoning Models#Backdoor Attacks#CoT Unfaithfulness#Emergent Robustness2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Soft Instruction De-escalation Defense본 논문은 외부 환경과 상호작용하는 LLM 기반 에이전트 시스템 이 겪는 프롬프트 인젝션 공격에 대한 취약성을 해결하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 데이터 내의 악의적인 명령을 효과적으로 무력화하면서도 에이전트의 유용성을 저해하지 않는 방어 메커니즘을 제안합니다.#Review#Prompt Injection#LLM Security#Agentic Systems#Iterative Sanitization#Instruction Control#Adversarial Robustness#Large Language Models2025년 10월 27일댓글 수 로딩 중