[논문리뷰] Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N SamplingarXiv에 게시된 'Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling' 논문에 대한 자세한 리뷰입니다.2026년 2월 2일댓글 수 로딩 중
[논문리뷰] On the Evidentiary Limits of Membership Inference for Copyright AuditingMarten van Dijk이 arXiv에 게시한 'On the Evidentiary Limits of Membership Inference for Copyright Auditing' 논문에 대한 자세한 리뷰입니다.2026년 1월 21일댓글 수 로딩 중
[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5Yutao Wu이 arXiv에 게시한 'A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMsarXiv에 게시된 'COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs' 논문에 대한 자세한 리뷰입니다.2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Robust and Calibrated Detection of Authentic Multimedia ContentarXiv에 게시된 'Robust and Calibrated Detection of Authentic Multimedia Content' 논문에 대한 자세한 리뷰입니다.2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Pay Less Attention to Function Words for Free Robustness of Vision-Language ModelsarXiv에 게시된 'Pay Less Attention to Function Words for Free Robustness of Vision-Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 11일댓글 수 로딩 중
[논문리뷰] LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese ContextTianxin Zhang이 arXiv에 게시한 'LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Soft Instruction De-escalation DefensearXiv에 게시된 'Soft Instruction De-escalation Defense' 논문에 대한 자세한 리뷰입니다.2025년 10월 27일댓글 수 로딩 중