[논문리뷰] Models That Know How Evaluations Are Designed Score Safer본 연구는 모델이 평가 벤치마크의 구조적 특성을 학습하여 실제 배포 환경보다 평가 환경에서 더 안전한 것처럼 행동하게 만드는 새로운 편향 요인을 규명하고자 한다.#Review#AI Safety#Evaluation Awareness#Meta-Knowledge#Synthetic Document Finetuning#Benchmark Contamination#Alignment Faking#Model Evaluation2026년 5월 27일댓글 수 로딩 중
[논문리뷰] Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics본 논문은 LRM에서 생성되는 Chain of Thought(CoT)가 모델의 최종 출력과 항상 일치하지 않는다는 'Unfaithfulness' 문제를 해결하고자 합니다 .#Review#Large Reasoning Models#Chain of Thought#Probe Trajectories#Representation Engineering#AI Safety#Max-pooling#Interpretability2026년 5월 18일댓글 수 로딩 중
[논문리뷰] Steered LLM Activations are Non-Surjective본 연구는 Activation Steering이 유도하는 모델의 내부 행동 변화가 실제 텍스트 프롬프트를 통해서도 동일하게 구현 가능한지라는 근본적인 의문을 해결하고자 합니다.#Review#Activation Steering#Surjectivity#LLM Interpretability#Prompt-Reachability#White-box Intervention#AI Safety2026년 5월 17일댓글 수 로딩 중
[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language ModelsLLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.#Review#Large Language Models#Chain-of-Thought#Monitorability#Benchmark#AI Safety#Stress-Test#Faithfulness2026년 3월 31일댓글 수 로딩 중
[논문리뷰] The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상이 AI 시스템의 상황 인식(situational awareness)을 불가피하게 증대시키며, 이는 궁극적으로 전략적 기만(strategic deception) 과 같은 심각한 안전 위험으로 이어질 수 있음을 경고합니다.#Review#Logical Reasoning#Situational Awareness#LLMs#Deceptive Alignment#AI Safety#RAISE Framework#Self-Modeling#Deduction#Induction#Abduction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement본 논문은 반복적인 자체 개선(recursive self-improvement)을 수행하는 AI 시스템에서 발생하는 미묘한 정렬 편향(alignment drift) 문제를 해결하는 것을 목표로 합니다.#Review#Recursive Self-Improvement#Alignment Drift#AI Safety#Goal Drift Index (GDI)#Constraint Preservation#Regression Risk#Capability Alignment Ratio (CAR)2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Reasoning Models Struggle to Control their Chains of Thought본 논문은 최신 추론 모델이 자신의 CoT (Chain-of-Thought)를 '의도적으로' 제어하여 모니터링을 회피할 수 있는 능력, 즉 CoT controllability 를 측정하고 분석하는 것을 목표로 합니다.#Review#Chain-of-Thought (CoT)#Model Controllability#AI Safety#Monitorability#Large Language Models (LLMs)#Reinforcement Learning (RL)#Evaluation Suite2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use에이전트형 언어 모델(LLMs)의 다단계 도구 사용(multi-step tool use) 환경에서 발생하는 고유한 안전 문제를 해결하는 것이 목표입니다.#Review#Agentic LLM#AI Safety#Multi-Step Tool Use#Reinforcement Learning#Preference-Based Learning#Safety Guardrails#Refusal Mechanism#Structured Reasoning2026년 3월 3일댓글 수 로딩 중
[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.#Review#Large Language Models#Prefill Attacks#AI Safety#Red Teaming#Vulnerability#Open-Weight Models#Jailbreaking#Generative AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies본 논문은 지속적인 자기 진화(Continuous Self-Evolution), 완전한 고립(Complete Isolation), 안전 불변성(Safety Invariance)이라는 자기 진화 삼중고(self-evolution trilemma)를 만족하는 AI 에이전트 사회가 불가능함을 이론적 및 실증적으로 증명하는 것을 목표로 합니다.#Review#Multi-agent Systems#Self-evolution#AI Safety#Alignment Drift#Information Theory#Thermodynamics#Entropy Accumulation#Moltbook2026년 2월 12일댓글 수 로딩 중
[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.#Review#AI Safety#Large Language Models#Multimodal LLMs#Benchmark Evaluation#Adversarial Robustness#Multilingual Evaluation#Regulatory Compliance#Image Generation Safety2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Steerability of Instrumental-Convergence Tendencies in LLMs본 논문은 AI 시스템의 역량(capability) 성장과 제어 가능성(steerability) 간의 관계를 탐구하며, 특히 도구적 수렴(instrumental convergence) 경향에 초점을 맞춥니다.#Review#LLM Steerability#Instrumental Convergence#AI Safety#AI Security#Open-Weight Models#Prompt Engineering#Model Control#Behavioral Alignment2026년 1월 6일댓글 수 로딩 중
[논문리뷰] K-EXAONE Technical ReportLG AI Research는 K-EXAONE 이라는 대규모 다국어 언어 모델을 개발하여 최첨단 성능을 달성하는 것을 목표로 합니다. 특히, 기존 모델의 한계를 극복하고 한국의 AI 인프라 환경을 고려하여 효율적이면서도 강력한 범용 및 전문 AI 기반 모델을 제공하고자 합니다.#Review#Multilingual Language Model#Mixture-of-Experts (MoE)#Long Context#AI Safety#Korean AI#Foundation Model#Reinforcement Learning (RL)2026년 1월 5일댓글 수 로딩 중
[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs본 논문은 범용적인 유해성 평가를 넘어, LLM이 기업 및 조직 특유의 허용 목록(allowlist) 및 거부 목록(denylist) 정책 을 얼마나 잘 준수하는지 체계적으로 평가하기 위한 COMPASS 프레임워크를 제안합니다.#Review#LLM Evaluation#Policy Alignment#Organizational Policies#AI Safety#Adversarial Robustness#Refusal Behavior#Prompt Engineering#Fine-tuning2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Reinventing Clinical Dialogue: Agentic Paradigms for LLM Enabled Healthcare Communication임상 대화에서 기존 LLM 의 반응적, 무상태적 특성 및 환각 문제의 한계를 극복하고, LLM 을 자율적인, 목표 지향적 시스템으로 전환하는 'Agentic Paradigm'을 제안합니다.#Review#Clinical Dialogue#LLM Agents#Healthcare AI#Agentic Paradigm#Medical Decision Support#Knowledge Grounding#AI Safety#Workflow Automation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] AI & Human Co-Improvement for Safer Co-Superintelligence이 논문은 AI가 스스로 개선하는 자율적 자기 개선(Self-Improving AI)의 목표가 위험하고 최적의 경로가 아니라고 주장하며, 대신 인간과 AI의 협력적 공동 개선(Co-Improvement) 을 통해 더 안전하고 빠른 공동 초지능(Co-Superintelligence) 달성을 제안합니다.#Review#AI Safety#Superintelligence#Human-AI Collaboration#Self-Improving AI#Co-Improvement#Alignment#AI Research Agents2025년 12월 7일댓글 수 로딩 중
[논문리뷰] Blueprints of Trust: AI System Cards for End to End Transparency and Governance본 논문은 AI 시스템의 개발 및 배포 과정에서 투명성과 책임성을 강화하기 위한 새로운 프레임워크인 Hazard-Aware System Card (HASC) 를 소개합니다.#Review#AI Governance#Transparency#AI System Card#Hazard-Aware System Card#Data Provenance#AI Safety#AI Risk Management#ISO/IEC 420012025년 9월 26일댓글 수 로딩 중
[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions본 논문은 최신 대규모 추론 모델(LRMs) 을 자동으로 검증 가능한 텍스트 및 시각 질문 에 대해 오염 없는(contamination-free) 방식으로 평가하는 예비 보고서입니다.#Review#Large Reasoning Models#LLM Evaluation#Multimodal AI#Reasoning Behaviors#Hallucination#Contamination-Free#AI Safety#Instruction Following2025년 9월 23일댓글 수 로딩 중
[논문리뷰] R^textbf{2AI}: Towards Resistant and Resilient AI in an Evolving World이 논문은 급증하는 AI 역량과 뒤처지는 안전성 발전 간의 지속적인 격차를 해결하고자 합니다. 기존의 수동적이고 반응적인 안전 접근 방식의 한계를 지적하며, 예측 불가능한 위험에 적응하고 지능과 함께 진화하는 본질적으로 안전한 AI 를 구현하기 위한 새로운 패러다임인 safe-by-coevolution 을 제안합니다.#Review#AI Safety#Resistant AI#Resilient AI#Coevolution#Fast-Slow Models#Adversarial Training#Continual Learning#AGI Alignment2025년 9월 9일댓글 수 로딩 중
[논문리뷰] False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize본 연구는 대규모 언어 모델(LLM)의 악성 입력 감지를 위해 제안된 프루빙 기반(probing-based) 방법론 의 신뢰성을 재평가하는 것을 목표로 합니다.#Review#LLM Safety#Malicious Input Detection#Probing Classifiers#Out-of-Distribution Generalization#Superficial Patterns#Instructional Patterns#Trigger Words#AI Safety2025년 9월 5일댓글 수 로딩 중
[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.#Review#Sparse Autoencoders#LLM Steering#Feature Selection#Correlation Analysis#AI Safety#Bias Mitigation#Mechanistic Interpretability2025년 8월 20일댓글 수 로딩 중
[논문리뷰] A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems이 논문은 대규모 언어 모델(LLMs) 기반 AI 에이전트의 정적인 구성 한계 를 극복하고, 동적이고 진화하는 환경에 적응할 수 있는 자기 진화(Self-Evolving) 및 평생 학습(Lifelong Learning) 에이전트 시스템 패러다임을 종합적으로 조망하는 것을 목표로 합니다.#Review#Self-Evolving AI Agents#Lifelong Learning#Foundation Models#Multi-Agent Systems#Agent Optimization#Prompt Engineering#Tool Use#AI Safety#Survey2025년 8월 12일댓글 수 로딩 중
[논문리뷰] RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models이 논문은 RAG(Retrieval-Augmented Generation) 시스템 에서 언어 모델이 불충분하거나 신뢰할 수 없는 정보 를 기반으로 답변을 거부하는 선택적 거부(selective refusal) 능력의 평가 문제를 다룹니다.#Review#RAG Systems#Selective Refusal#Generative Evaluation#Linguistic Perturbations#LLM Evaluation#Informational Uncertainty#Model Calibration#AI Safety2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Machine Text Detectors are Membership Inference Attacks본 연구는 멤버십 추론 공격(MIAs)과 기계 생성 텍스트 감지(MGTD)라는 두 가지 관련 연구 분야가 독립적으로 연구되어 발생하는 비효율성을 해결하고자 합니다.#Review#Membership Inference Attacks#Machine-Generated Text Detection#Transferability#Likelihood Ratio Test#Large Language Models#Zero-Shot Detection#Model Security#AI Safety2025년 10월 23일댓글 수 로딩 중