[논문리뷰] From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors본 논문은 Agentic Harness 환경에서 발생하는 다단계 Trojan 공격이 기존의 단일 턴 기반 방어 체계를 무력화하는 심각한 보안 위협임을 지적한다.#Review#Agentic Harness#Multi-step Trojan Attack#Prompt Injection#DASGuard#ClawTrojan#Workspace Security2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw본 논문은 현대 개인용 AI 에이전트가 고도의 자동화와 개인화를 위해 사용하는 Persistent State 가 심각한 보안 취약점을 초래한다는 문제를 해결하고자 합니다.#Review#Personal AI Agents#Persistent State#Security Analysis#CIK Taxonomy#Prompt Injection#Agent Safety#Evolution-Safety Tradeoff2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Agents of Chaos이 논문은 영구 메모리, 이메일, Discord 접근 권한, 파일 시스템, 쉘 실행 능력을 갖춘 라이브 환경에 배포된 자율형 언어 모델 기반 에이전트 에 대한 탐색적 레드팀 연구를 보고합니다.#Review#AI Agents#Red-teaming#Agentic Systems#Multi-Agent Communication#Security Vulnerabilities#Prompt Injection#Social Engineering#Resource Management2026년 2월 23일댓글 수 로딩 중
[논문리뷰] FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments금융 에이전트(LLM 기반)가 투자 분석, 위험 평가, 자동화된 의사결정 등 고위험 및 고규제 환경에서 새로운 보안 위험을 초래하는 문제를 해결하고자 합니다.#Review#Financial AI Agents#Security Benchmark#Execution-Grounded#LLM Safety#Prompt Injection#Jailbreaking#Compliance#Vulnerability Assessment2026년 1월 21일댓글 수 로딩 중
[논문리뷰] ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback본 논문은 LLM 기반 에이전트의 도구 호출 기능에서 발생하는 보안 위험을 해결하는 것을 목표로 합니다.#Review#LLM Agents#Tool Use Safety#Guardrail#Step-level Safety Detection#Prompt Injection#Reinforcement Learning#Feedback Framework2026년 1월 15일댓글 수 로딩 중
[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI ScientistsAI가 생성한 과학 연구 콘텐츠가 파편화된 출판 생태계와 확장성 없는 인간 중심의 동료 검토 시스템으로 인해 확산에 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#AI Agents#Open Access#Scientific Discovery#Peer Review#LLMs#Multi-agent Systems#Prompt Injection#Iterative Refinement2025년 8월 22일댓글 수 로딩 중
[논문리뷰] Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols본 연구는 신뢰할 수 없는 LLM 에이전트가 안전 메커니즘을 우회하여 AI 제어 프로토콜을 전복시키는 문제를 다룹니다. 특히, 공격자 모델이 프로토콜과 모니터 모델에 대한 지식을 가진 적응형 공격(adaptive attacks) 에 초점을 맞춰, LLM 모니터를 핵심 실패 지점으로 악용하는 새로운 공격 벡터를 제시합니다.#Review#AI Control Protocols#LLM Monitors#Adaptive Attacks#Prompt Injection#Jailbreaking#Red Teaming#Scalable Oversight2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Imperceptible Jailbreaking against Large Language Models본 논문은 기존의 가시적인 텍스트 수정 방식과 달리 눈에 보이지 않는(imperceptible) 방식으로 LLM의 안전 장치를 우회하는 새로운 제일브레이크 공격 기법을 제안합니다.#Review#Large Language Models#Jailbreaking#Imperceptible Attacks#Unicode Variation Selectors#Adversarial Suffixes#Safety Alignment#Prompt Injection2025년 10월 7일댓글 수 로딩 중
[논문리뷰] WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents이 논문은 웹 에이전트를 대상으로 하는 프롬프트 인젝션 공격에 대한 탐지 방법들을 체계적으로 벤치마킹하여, 웹 에이전트 환경에서의 탐지 성능을 종합적으로 평가하고 이해하는 것을 목표로 합니다.#Review#Prompt Injection#Web Agents#Multimodal AI#Adversarial Attacks#Detection Benchmarking#Large Language Models#Image-based Detection#Text-based Detection2025년 10월 6일댓글 수 로딩 중
[논문리뷰] FocusAgent: Simple Yet Effective Ways of Trimming the Large Context of Web Agents대규모 언어 모델(LLM) 기반 웹 에이전트가 긴 웹 페이지 관찰(수만 개의 토큰)로 인해 발생하는 컨텍스트 한계, 높은 계산 비용, 그리고 프롬프트 주입 공격과 같은 보안 위험을 해결하는 것을 목표로 합니다.#Review#Web Agents#LLM Context Pruning#Accessibility Tree#Prompt Injection#Retrieval Augmented Generation#Web Navigation#Agent Security#Efficient LLM2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Soft Instruction De-escalation Defense본 논문은 외부 환경과 상호작용하는 LLM 기반 에이전트 시스템 이 겪는 프롬프트 인젝션 공격에 대한 취약성을 해결하는 것을 목표로 합니다. 특히, 신뢰할 수 없는 데이터 내의 악의적인 명령을 효과적으로 무력화하면서도 에이전트의 유용성을 저해하지 않는 방어 메커니즘을 제안합니다.#Review#Prompt Injection#LLM Security#Agentic Systems#Iterative Sanitization#Instruction Control#Adversarial Robustness#Large Language Models2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Distractor Injection Attacks on Large Reasoning Models: Characterization and Defense본 논문은 대규모 추론 모델(LRMs)에서 '추론 방해(Reasoning Distraction)' 라는 새로운 취약점을 식별하고 체계적으로 분석하는 것을 목표로 합니다.#Review#Large Reasoning Models (LRMs)#Prompt Injection#Adversarial Attack#Reasoning Distraction#Chain-of-Thought#Robustness#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)2025년 10월 21일댓글 수 로딩 중