[논문리뷰] The Fragility of Chain-of-Thought Monitoring Across Typologically Diverse Languages본 연구는 Chain-of-Thought(CoT) 모니터링이 다양한 언어 환경과 모델군에서 얼마나 신뢰할 수 있는가를 실증적으로 검증하기 위해 시작되었다.#Review#Chain-of-Thought#CoT Monitorability#Deception#Linguistic Distribution Shift#Mechanistic Interpretability#LLM Safety2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5본 보고서는 빠르게 발전하는 프론티어 AI 모델(LLMs 및 에이전트 AI) 이 초래하는 전례 없는 위험을 이해하고 식별하며, 사이버 공격, 설득 및 조작, 전략적 기만, 통제되지 않은 AI R&D, 자기 복제 등 다섯 가지 주요 위험 차원에 대한 업데이트되고 심층적인 평가를 제공합니다.#Review#Frontier AI#AI Risk Management#Autonomous Agents#LLM Safety#Cybersecurity#Deception#Self-Replication#Mitigation Frameworks2026년 2월 19일댓글 수 로딩 중
[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.#Review#Multi-Turn Jailbreaks#LLM Safety#Red Teaming#Reinforcement Learning#Intent Drift#Response-Agnostic Generation#Self-Tuning2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling이 논문은 대규모 언어 모델(LLMs)의 안전성 평가가 단일 시도(single-shot) 또는 저예산 공격에만 초점을 맞춰 실제 위협을 과소평가하는 문제를 해결하고자 합니다.#Review#LLM Safety#Adversarial Robustness#Best-of-N Sampling#Statistical Estimation#Beta-Binomial Model#Jailbreak#Risk Amplification2026년 2월 1일댓글 수 로딩 중
[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and SecurityAI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.#Review#AI Agents#Safety Guardrails#Explainable AI (XAI)#Risk Taxonomy#Benchmarking#LLM Safety#Tool Use#Agent Alignment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] FinVault: Benchmarking Financial Agent Safety in Execution-Grounded Environments금융 에이전트(LLM 기반)가 투자 분석, 위험 평가, 자동화된 의사결정 등 고위험 및 고규제 환경에서 새로운 보안 위험을 초래하는 문제를 해결하고자 합니다.#Review#Financial AI Agents#Security Benchmark#Execution-Grounded#LLM Safety#Prompt Injection#Jailbreaking#Compliance#Vulnerability Assessment2026년 1월 21일댓글 수 로딩 중
[논문리뷰] In-Context Representation Hijacking본 논문은 LLM의 내부 표현을 조작하여 안전 장치를 우회하는 새로운 형태의 탈옥(jailbreak) 공격인 'Doublespeak'을 소개합니다.#Review#LLM Jailbreak#In-Context Learning#Representation Hijacking#Mechanistic Interpretability#LLM Safety#Adversarial Attack#Semantic Shift2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Jailbreaking in the Haystack본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.#Review#Jailbreaking#LLM Safety#Long-Context Models#Positional Bias#Attack Success Rate (ASR)#Prompt Engineering#Compute Efficiency#AI Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context본 연구는 중국어 환경에서 대규모 언어 모델(LLMs)의 안전성 평가를 위한 동적(dynamic) 이며 문화적으로 적합한(culturally-relevant) 벤치마크인 LiveSecBench 를 제안하는 것을 목표로 합니다.#Review#LLM Safety#AI Safety Benchmark#Chinese Context#Dynamic Evaluation#Cultural Relevance#Adversarial Robustness#ELO Rating System2025년 11월 9일댓글 수 로딩 중
[논문리뷰] False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize본 연구는 대규모 언어 모델(LLM)의 악성 입력 감지를 위해 제안된 프루빙 기반(probing-based) 방법론 의 신뢰성을 재평가하는 것을 목표로 합니다.#Review#LLM Safety#Malicious Input Detection#Probing Classifiers#Out-of-Distribution Generalization#Superficial Patterns#Instructional Patterns#Trigger Words#AI Safety2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Turning the Spell Around: Lightweight Alignment Amplification via Rank-One Safety Injection본 논문은 대규모 언어 모델(LLM)의 안전 정렬(safety alignment)이 특정 내부 표현 방향에 의해 매개되며 우회될 수 있다는 기존 연구를 바탕으로, 정반대로 안전 정렬을 강화하는 새로운 방법을 제안합니다.#Review#LLM Safety#Alignment Amplification#Rank-One Update#Mechanistic Interpretability#Weight Steering#Jailbreak Robustness#Fine-tuning-free#Safety Injection2025년 8월 29일댓글 수 로딩 중
[논문리뷰] AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization대규모 언어 모델(LLM)의 LoRA 미세 조정 과정에서 발생하는 정렬 드리프트(alignment drift) 문제를 해결하여, 안전 및 행동 제약을 유지하면서도 새로운 태스크에 대한 성능 저하를 방지하는 것을 목표로 합니다.#Review#Alignment Preservation#Fine-Tuning#LoRA#Fisher Information Matrix#Catastrophic Forgetting#LLM Safety#Riemannian Geometry#Parameter-Efficient Learning2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Qwen3Guard Technical Report본 연구는 기존 가드레일 모델의 이진 분류 한계와 스트리밍 LLM 추론과의 비호환성 문제를 해결하는 것을 목표로 합니다.#Review#LLM Safety#Guardrail Models#Multilingual AI#Real-time Moderation#Tri-class Classification#Instruction Tuning#Streaming Inference2025년 10월 17일댓글 수 로딩 중
[논문리뷰] The Alignment Waltz: Jointly Training Agents to Collaborate for Safety대규모 언어 모델(LLM)이 유용하면서도 안전하게 작동하는 것 사이의 근본적인 긴장을 해소하는 것을 목표로 합니다. 특히, 적대적 공격에 취약하여 위험한 콘텐츠를 생성하거나, 양성이지만 민감한 프롬프트에 대해 과도하게 거절(overrefusal)하는 문제를 해결하고자 합니다.#Review#LLM Safety#Multi-agent Reinforcement Learning#Safety Alignment#Overrefusal#Adversarial Attacks#Feedback Agent#Conversation Agent#Dynamic Improvement Reward2025년 10월 10일댓글 수 로딩 중
[논문리뷰] AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement LearningLLM 기반 다중 에이전트 시스템(MAS)이 jailbreak, prompt-injection, adversarial collaboration과 같은 공격에 취약한 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Adversarial Co-evolution#LLM Safety#Jailbreak Attacks#Internalized Safety#Public Baseline#System Robustness2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents본 논문은 자율적으로 진화하는 LLM 에이전트에서 발생하는 예기치 않거나 유해한 행동인 ' Misevolution ' 현상을 개념화하고 체계적으로 조사하는 것을 목표로 합니다. 에이전트의 자기 개선 과정이 기존 안전 연구에서 간과된 새로운 유형의 위험을 어떻게 초래하는지 밝히고자 합니다.#Review#Self-evolving Agents#LLM Safety#Misevolution#Emergent Risks#Model Evolution#Memory Evolution#Tool Evolution#Workflow Evolution2025년 10월 6일댓글 수 로딩 중
[논문리뷰] ImpossibleBench: Measuring LLMs' Propensity of Exploiting Test Cases이 논문은 대규모 언어 모델(LLMs)이 테스트 케이스를 '악용'하여 작업을 완수하는 경향, 즉 리워드 해킹(reward hacking) 을 체계적으로 측정하고 이해하는 프레임워크인 ImpossibleBench 를 소개합니다.#Review#LLM Evaluation#Reward Hacking#Benchmark Reliability#Test Exploitation#Prompt Engineering#LLM Safety#Code Generation2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Agentic Reinforcement Learning for Search is Unsafe본 논문은 에이전트형 강화 학습(RL)으로 훈련된 검색 모델의 안전성, 특히 유해한 요청에 대한 거부 능력과 기존 지시 튜닝(Instruction Tuning)으로부터 물려받은 안전성 속성이 어떻게 변화하는지 평가하는 것을 목표로 합니다.#Review#Agentic Reinforcement Learning#LLM Safety#Tool Use#Search Models#Jailbreaking#Instruction Tuning#Vulnerability2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Emergent Misalignment via In-Context Learning: Narrow in-context examples can produce broadly misaligned LLMs본 논문은 기존 파인튜닝(fine-tuning) 및 활성화 조종(activation steering)에서 관찰된 ' emergent misalignment (EM)' 현상이 인컨텍스트 학습(In-Context Learning, ICL) 환경에서도 발생하는지 여부를 탐구합니다.#Review#Emergent Misalignment#In-Context Learning#LLM Safety#Persona Rationalization#Prompt Engineering#Model Alignment2025년 10월 20일댓글 수 로딩 중