[논문리뷰] Risk Under Pressure: Compute-Aware Evaluation of Adversarial Robustness in Language Models본 논문은 대규모 언어 모델(LLM)의 안전성 평가가 고정된 쿼리 예산(fixed query budget)에 의존함에 따라 발생하는 심각한 정보 왜곡 문제를 해결하고자 합니다.#Review#Adversarial Robustness#Compute-Aware Evaluation#FLOPs#Jailbreak Attacks#Risk-Compute Curves#Safety Alignment2026년 6월 11일댓글 수 로딩 중
[논문리뷰] AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement LearningLLM 기반 다중 에이전트 시스템(MAS)이 jailbreak, prompt-injection, adversarial collaboration과 같은 공격에 취약한 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Agent Reinforcement Learning#Adversarial Co-evolution#LLM Safety#Jailbreak Attacks#Internalized Safety#Public Baseline#System Robustness2025년 10월 7일댓글 수 로딩 중
[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.#Review#Large Language Models (LLMs)#Operational Safety#Out-of-Domain (OOD)#Prompt Steering#Jailbreak Attacks#Evaluation Benchmark#Refusal Rate2025년 10월 1일댓글 수 로딩 중