#Red Teaming

8개의 포스트

[논문리뷰] RedVox: Safety and Fairness Gaps in Speech Models Across Languages

본 논문은 최신 음성 인식 모델들의 안전성 및 공정성 평가가 지나치게 영어 중심적이며, 자연스러운 실사용 환경이 아닌 합성 데이터에 치중되어 있다는 한계점을 지적합니다.

#Review #Speech Models #Safety #Fairness #Multilingual #Benchmark #Red Teaming #Multimodal

2026년 6월 30일

[논문리뷰] PsychoSafe: Eliciting Psychologically-Informed Refusals in Large Language Models

본 연구는 현재 LLM의 거절 방식이 지나치게 정형화되어 있어 사용자의 반발을 유발하거나, 의도치 않게 안전 필터를 우회당하는 취약점을 안고 있다는 문제에서 출발한다.

#Review #LLM Safety #Psychology-Informed #Refusal Strategy #Alignment #Red Teaming #Cognitive Science #AI Ethics

2026년 6월 9일

[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.

#Review #Multimodal LLMs #Safety Evaluation #Red Teaming #Adversarial Attacks #Modality Switching #LLM Alignment #Compliance #ASR

2026년 3월 4일

[논문리뷰] Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks

본 논문은 오픈-웨이트 대규모 언어 모델(LLM)이 프리필(prefill) 공격 에 체계적으로 취약하다는 점을 폭로하는 것을 목표로 합니다.

#Review #Large Language Models #Prefill Attacks #AI Safety #Red Teaming #Vulnerability #Open-Weight Models #Jailbreaking #Generative AI

2026년 2월 16일

[논문리뷰] SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

기존의 다중 턴(multi-turn) 탈옥(jailbreak) 공격 방법론들이 겪는 탐색 복잡성 과 의도 왜곡(intent drift) 문제를 해결하고자 합니다.

#Review #Multi-Turn Jailbreaks #LLM Safety #Red Teaming #Reinforcement Learning #Intent Drift #Response-Agnostic Generation #Self-Tuning

2026년 2월 8일

[논문리뷰] TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment

본 논문은 대규모 언어 모델(LLM)에서 유해한 콘텐츠 생성을 완화하는 안전성 정렬의 시급한 문제를 다룹니다. 기존 방법론들이 겪는 확장성 한계, 레드 팀 훈련의 엔트로피 붕괴, 방어 모델의 과적합, 그리고 적대적 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Safety Alignment #Reinforcement Learning #Self-Play #Red Teaming #Adversarial Training #Multi-Role Framework #Reward Hacking Mitigation

2026년 1월 27일

[논문리뷰] Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

본 논문은 상업용 블랙박스 LLM에 대한 효과적인 탈옥(jailbreak) 공격 방법론을 개발하고, 기존 레드팀 데이터셋의 부적절한 프롬프트(Benign, Non-obvious Harmful, Non-Triggering harmful-response) 문제를 해결하여 LLM 평가의 정확성을 높이는 것을 목표로 합니다.

#Review #LLM Jailbreaking #Red Teaming #Malicious Content Detection #Developer Messages #D-Attack #DH-CoT #Adversarial Attacks #Dataset Cleaning

2025년 8월 25일

[논문리뷰] Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

본 연구는 신뢰할 수 없는 LLM 에이전트가 안전 메커니즘을 우회하여 AI 제어 프로토콜을 전복시키는 문제를 다룹니다. 특히, 공격자 모델이 프로토콜과 모니터 모델에 대한 지식을 가진 적응형 공격(adaptive attacks) 에 초점을 맞춰, LLM 모니터를 핵심 실패 지점으로 악용하는 새로운 공격 벡터를 제시합니다.

#Review #AI Control Protocols #LLM Monitors #Adaptive Attacks #Prompt Injection #Jailbreaking #Red Teaming #Scalable Oversight

2025년 10월 13일