[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and SecurityAI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.#Review#AI Agents#Safety Guardrails#Explainable AI (XAI)#Risk Taxonomy#Benchmarking#LLM Safety#Tool Use#Agent Alignment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.#Review#Hate Speech Detection#Explainable AI (XAI)#Multilingual NLP#Large Language Models (LLMs)#Attention Mechanism#N-gram Explanations#Human Rationales#Benchmark Dataset2026년 1월 6일댓글 수 로딩 중
[논문리뷰] REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance소셜 미디어의 가짜 뉴스 확산으로 인한 신뢰 저하 문제를 해결하기 위해, 기존 LLM 기반 팩트 체크 시스템의 외부 지식 의존성, 높은 지연 시간, 환각 현상, 낮은 해석 가능성 등의 한계를 극복하는 것을 목표로 합니다.#Review#Fact-Checking#Explainable AI (XAI)#Large Language Models (LLMs)#Self-Refinement#Latent Space#Disentanglement#Steering Vectors#Misinformation2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Fidelity-Aware Recommendation Explanations via Stochastic Path Integration본 논문은 추천 시스템에서 설명의 충실도(fidelity), 즉 설명이 모델의 실제 추론을 얼마나 정확하게 반영하는지에 대한 문제를 해결하고자 합니다.#Review#Recommender Systems#Explainable AI (XAI)#Explanation Fidelity#Path Integration#Stochastic Sampling#Counterfactual Explanations#Model-Agnostic#Sparse Data2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Rethinking Saliency Maps: A Cognitive Human Aligned Taxonomy and Evaluation Framework for Explanations본 연구는 심층 학습 모델의 시각적 설명 기법인 Saliency Map 이 명확한 목적과 사용자 질의에 대한 정렬이 부족하여 평가 및 실용적 효용성이 저해되는 문제를 해결하는 것을 목표로 합니다.#Review#Saliency Maps#Explainable AI (XAI)#Taxonomy#Evaluation Framework#Faithfulness Metrics#Contrastive Explanations#Granularity2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Cross-Attention is Half Explanation in Speech-to-Text Models본 논문은 S2T 모델에서 교차 어텐션(cross-attention) 점수가 입력-출력 의존성을 얼마나 잘 설명하는지 체계적으로 분석합니다.#Review#Cross-attention#Speech-to-Text (S2T)#Explainable AI (XAI)#Saliency Maps#Feature Attribution#Transformer#Context Mixing#Correlation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] When Explainability Meets Privacy: An Investigation at the Intersection of Post-hoc Explainability and Differential Privacy in the Context of Natural Language Processing이 논문은 NLP 분야에서 사후 설명 가능성(Post-hoc Explainability) 과 차등 프라이버시(Differential Privacy) 의 교차점을 탐구하며, 프라이버시와 설명 가능성 달성의 동시 가능성 및 그들 사이의 상충 관계를 이해하는 것을 목표로 합니다.#Review#Natural Language Processing (NLP)#Explainable AI (XAI)#Post-hoc Explainability#Differential Privacy (DP)#Privacy-Utility Trade-off#Model Faithfulness#Text Privatization2025년 8월 15일댓글 수 로딩 중