[논문리뷰] DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents본 논문은 복잡한 워크플로우를 자동화하는 AI 에이전트의 보안 위협을 체계적으로 평가할 수 있는 표준화된 플랫폼과 벤치마크의 부재 문제를 해결합니다.#Review#AI Agents#Red-Teaming#Safety Evaluation#Agentic Systems#Security Risk Assessment2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.#Review#Autonomous Agents#Benchmark#Trajectory-aware Grading#Safety Evaluation#Robustness Testing#Multimodal Perception2026년 4월 7일댓글 수 로딩 중
[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models본 연구는 기존의 텍스트 중심 안전성 평가와 레드팀 활동의 한계를 극복하고, 멀티모달 LLM의 정렬(alignment)이 오디오, 이미지, 비디오 입력에 대해 일반화되는지 체계적으로 테스트하기 위한 통합 플랫폼 을 제공하는 것을 목표로 합니다. 특히, 모달리티 전환이 다중 턴 공격에 미치는 영향을 규명하고자 합니다.#Review#Multimodal LLMs#Safety Evaluation#Red Teaming#Adversarial Attacks#Modality Switching#LLM Alignment#Compliance#ASR2026년 3월 4일댓글 수 로딩 중
[논문리뷰] UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat본 연구는 영어 중심 LLM들이 아랍어의 언어적, 문화적 뉘앙스를 포착하는 데 어려움을 겪는 문제를 해결하기 위해 개발된 ALLaM 34B 모델에 대한 포괄적인 UI-레벨 평가를 수행하는 것을 목표로 합니다.#Review#Arabic LLM#UI-level Evaluation#ALLaM 34B#HUMAIN Chat#Dialectal Arabic#LLM as a Judge#Safety Evaluation2025년 9월 2일댓글 수 로딩 중