#Safety

9개의 포스트

[논문리뷰] RedVox: Safety and Fairness Gaps in Speech Models Across Languages

본 논문은 최신 음성 인식 모델들의 안전성 및 공정성 평가가 지나치게 영어 중심적이며, 자연스러운 실사용 환경이 아닌 합성 데이터에 치중되어 있다는 한계점을 지적합니다.

#Review #Speech Models #Safety #Fairness #Multilingual #Benchmark #Red Teaming #Multimodal

2026년 6월 30일

[논문리뷰] SAE Interventions are Unreliable: Post-Intervention Recovery of Suppressed Behavior

본 논문은 SAE를 이용한 잠재 공간(latent-space) 방어 기법들이 행동을 완전히 통제하지 못할 수 있다는 한계점을 지적합니다.

#Review #Sparse Autoencoders #Intervention #Post-Intervention Recovery #Constrained Optimization #Interpretability #Safety #Residual Stream

2026년 6월 17일

[논문리뷰] Implicit Intelligence -- Evaluating Agents on What Users Don't Say

AI 에이전트가 사용자의 명시적 지시 를 따르는 것을 넘어, 암묵적인 기대치와 요구사항 을 추론하고 충족하는 능력을 평가하는 것을 목표로 합니다. 현실 세계의 요청은 본질적으로 불완전하게 명시되며, 기존 벤치마크들이 명시적인 지시 수행 에만 초점을 맞춰왔다는 한계를 극복하고자 합니다.

#Review #Implicit Intelligence #AI Agents #Agent-as-a-World #Contextual Reasoning #Safety #Privacy #Accessibility #LLM Evaluation

2026년 2월 24일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] Self-Improving Pretraining: using post-trained models to pretrain better models

본 논문은 대규모 언어 모델(LLM)의 생성 안전성, 사실성 및 전반적인 품질 문제를 사전 훈련 단계에서부터 해결하는 것을 목표로 합니다.

#Review #Self-Improving Pretraining #Reinforcement Learning (RL)#Large Language Models (LLMs)#Quality Control #Factuality #Safety #Post-trained Models #Pretraining Data Augmentation

2026년 1월 29일

[논문리뷰] The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models

본 논문은 대규모 언어 모델(LLM)이 기본적으로 가지는 'AI Assistant' 페르소나의 구조를 심층적으로 탐구하고, 이 페르소나가 특정 상황에서 벗어나 부적절하거나 유해한 행동으로 이어지는 '페르소나 드리프트' 현상을 해결하는 것을 목표로 합니다.

#Review #Language Models #Persona Control #Activation Steering #Persona Drift #Alignment #Post-training #Interpretability #Safety

2026년 1월 19일

[논문리뷰] Evaluating Gemini Robotics Policies in a Veo World Simulator

이 논문은 현실감, 확장성, 안전성 측면에서 기존 물리 기반 시뮬레이터가 가진 한계를 극복하고, 제너럴리스트 로봇 정책 평가를 위한 새로운 방법론을 제시합니다.

#Review #Robotics #Policy Evaluation #World Model #Video Generation #Out-of-Distribution (OOD)#Safety #Gemini Robotics #Veo Simulator

2025년 12월 11일

[논문리뷰] VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

본 논문은 기존 벤치마크의 한계를 극복하고, 음성 우선 AI 비서의 청취, 말하기, 보기 능력 전반 을 평가할 수 있는 종합적인 벤치마크를 제시하는 것을 목표로 합니다.

#Review #AI Assistants #Multimodal Benchmarking #Audio Understanding #Speech Synthesis #Vision-Language Models #Role-play #Safety #Robustness

2025년 9월 29일

[논문리뷰] VeriGuard: Enhancing LLM Agent Safety via Verified Code Generation

본 논문은 자율 AI 에이전트, 특히 LLM 기반 에이전트의 배포로 인해 발생하는 안전, 보안, 프라이버시 위험을 해결하고자 합니다.

#Review #LLM Agents #Safety #Formal Verification #Code Generation #Runtime Monitoring #Security #Guardrails #Policy Enforcement

2025년 10월 8일