#AI Safety

24개의 포스트

[논문리뷰] Models That Know How Evaluations Are Designed Score Safer

본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.

#Review #AI Safety #Evaluation Awareness #Meta-Knowledge #Synthetic Document Finetuning #Benchmark Contamination #Alignment Faking #Model Evaluation

2026년 5월 27일

[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics

본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .

#Review #Large Reasoning Models #Chain of Thought #Probe Trajectories #Representation Engineering #AI Safety #Max-pooling #Interpretability

2026년 5월 18일

[논문리뷰] Steered LLM Activations are Non-Surjective

본 연구는 Activation Steering이 유도하는 모델의 내부 행동 변화가 실제 텍스트 프롬프트를 통해서도 동일하게 구현 가능한지라는 근본적인 의문을 해결하고자 합니다.

#Review #Activation Steering #Surjectivity #LLM Interpretability #Prompt-Reachability #White-box Intervention #AI Safety

2026년 5월 17일

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상이 AI 시스템의 상황 인식(situational awareness)을 불가피하게 증대시키며, 이는 궁극적으로 전략적 기만(strategic deception) 과 같은 심각한 안전 위험으로 이어질 수 있음을 경고합니다.

#Review #Logical Reasoning #Situational Awareness #LLMs #Deceptive Alignment #AI Safety #RAISE Framework #Self-Modeling #Deduction #Induction #Abduction

2026년 3월 10일

[논문리뷰] SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

본 논문은 반복적인 자체 개선(recursive self-improvement)을 수행하는 AI 시스템에서 발생하는 미묘한 정렬 편향(alignment drift) 문제를 해결하는 것을 목표로 합니다.

#Review #Recursive Self-Improvement #Alignment Drift #AI Safety #Goal Drift Index (GDI)#Constraint Preservation #Regression Risk #Capability Alignment Ratio (CAR)

2026년 3월 10일

[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought

본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.

#Review #Chain-of-Thought (CoT)#Model Controllability #AI Safety #Monitorability #Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite

2026년 3월 8일

[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.

#Review #Agentic LLM #AI Safety #Multi-Step Tool Use #Reinforcement Learning #Preference-Based Learning #Safety Guardrails #Refusal Mechanism #Structured Reasoning

2026년 3월 3일

[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.

#Review #Large Language Models #Prefill Attacks #AI Safety #Red Teaming #Vulnerability #Open-Weight Models #Jailbreaking #Generative AI

2026년 2월 16일

[논문리뷰] The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

본 논문은 지속적인 자기 진화(Continuous Self-Evolution), 완전한 고립(Complete Isolation), 안전 불변성(Safety Invariance)이라는 자기 진화 삼중고(self-evolution trilemma)를 만족하는 AI 에이전트 사회가 불가능함을 이론적 및 실증적으로 증명하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Self-evolution #AI Safety #Alignment Drift #Information Theory #Thermodynamics #Entropy Accumulation #Moltbook

2026년 2월 12일

[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5

본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.

#Review #AI Safety #Large Language Models #Multimodal LLMs #Benchmark Evaluation #Adversarial Robustness #Multilingual Evaluation #Regulatory Compliance #Image Generation Safety

2026년 1월 15일

[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs

본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.

#Review #LLM Steerability #Instrumental Convergence #AI Safety #AI Security #Open-Weight Models #Prompt Engineering #Model Control #Behavioral Alignment

2026년 1월 6일

[논문리뷰] K-EXAONE Technical Report

LG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.

#Review #Multilingual Language Model #Mixture-of-Experts (MoE)#Long Context #AI Safety #Korean AI #Foundation Model #Reinforcement Learning (RL)

2026년 1월 5일

[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs

본 논문은 범용적인 유해성 평가를 넘어, LLM이 기업 및 조직 특유의 허용 목록(allowlist) 및 거부 목록(denylist) 정책 을 얼마나 잘 준수하는지 체계적으로 평가하기 위한 COMPASS 프레임워크를 제안합니다.

#Review #LLM Evaluation #Policy Alignment #Organizational Policies #AI Safety #Adversarial Robustness #Refusal Behavior #Prompt Engineering #Fine-tuning

2026년 1월 5일

[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication

임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.

#Review #Clinical Dialogue #LLM Agents #Healthcare AI #Agentic Paradigm #Medical Decision Support #Knowledge Grounding #AI Safety #Workflow Automation

2025년 12월 10일

[논문리뷰] AI & Human Co-Improvement for Safer Co-Superintelligence

이 논문은 AI가 스스로 개선하는 자율적 자기 개선(Self-Improving AI)의 목표가 위험하고 최적의 경로가 아니라고 주장하며, 대신 인간과 AI의 협력적 공동 개선(Co-Improvement) 을 통해 더 안전하고 빠른 공동 초지능(Co-Superintelligence) 달성을 제안합니다.

#Review #AI Safety #Superintelligence #Human-AI Collaboration #Self-Improving AI #Co-Improvement #Alignment #AI Research Agents

2025년 12월 7일

[논문리뷰] Blueprints of Trust: AI System Cards for End to End Transparency and Governance

본 논문은 AI 시스템의 개발 및 배포 과정에서 투명성과 책임성을 강화하기 위한 새로운 프레임워크인 Hazard-Aware System Card (HASC) 를 소개합니다.

#Review #AI Governance #Transparency #AI System Card #Hazard-Aware System Card #Data Provenance #AI Safety #AI Risk Management #ISO/IEC 42001

2025년 9월 26일

[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions

본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.

#Review #Large Reasoning Models #LLM Evaluation #Multimodal AI #Reasoning Behaviors #Hallucination #Contamination-Free #AI Safety #Instruction Following

2025년 9월 23일

[논문리뷰] R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World

이 논문은 급증하는 AI 역량과 뒤처지는 안전성 발전 간의 지속적인 격차를 해결하고자 합니다. 기존의 수동적이고 반응적인 안전 접근 방식의 한계를 지적하며, 예측 불가능한 위험에 적응하고 지능과 함께 진화하는 본질적으로 안전한 AI 를 구현하기 위한 새로운 패러다임인 safe-by-coevolution 을 제안합니다.

#Review #AI Safety #Resistant AI #Resilient AI #Coevolution #Fast-Slow Models #Adversarial Training #Continual Learning #AGI Alignment

2025년 9월 9일

[논문리뷰] False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

본 연구는 대규모 언어 모델(LLM)의 악성 입력 감지를 위해 제안된 프루빙 기반(probing-based) 방법론 의 신뢰성을 재평가하는 것을 목표로 합니다.

#Review #LLM Safety #Malicious Input Detection #Probing Classifiers #Out-of-Distribution Generalization #Superficial Patterns #Instructional Patterns #Trigger Words #AI Safety

2025년 9월 5일

[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection

본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.

#Review #Sparse Autoencoders #LLM Steering #Feature Selection #Correlation Analysis #AI Safety #Bias Mitigation #Mechanistic Interpretability

2025년 8월 20일

[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems

이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다.

#Review #Self-Evolving AI Agents #Lifelong Learning #Foundation Models #Multi-Agent Systems #Agent Optimization #Prompt Engineering #Tool Use #AI Safety #Survey

2025년 8월 12일

[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models

이 논문은 RAG(Retrieval-Augmented Generation) 시스템 에서 언어 모델이 불충분하거나 신뢰할 수 없는 정보 를 기반으로 답변을 거부하는 선택적 거부(selective refusal) 능력의 평가 문제를 다룹니다.

#Review #RAG Systems #Selective Refusal #Generative Evaluation #Linguistic Perturbations #LLM Evaluation #Informational Uncertainty #Model Calibration #AI Safety

2025년 10월 17일

[논문리뷰] Machine Text Detectors are Membership Inference Attacks

본 연구는 멤버십 추론 공격(MIAs)과 기계 생성 텍스트 감지(MGTD)라는 두 가지 관련 연구 분야가 독립적으로 연구되어 발생하는 비효율성을 해결하고자 합니다.

#Review #Membership Inference Attacks #Machine-Generated Text Detection #Transferability #Likelihood Ratio Test #Large Language Models #Zero-Shot Detection #Model Security #AI Safety

2025년 10월 23일