[논문리뷰] Measuring Model Robustness via Fisher Information: Spectral Bounds, Theoretical Guarantees, and Practical Algorithms본 논문은 딥러닝 모델의 견고성 평가가 특정 공격(Attack-dependent)에 과도하게 의존하고 있으며, 이론적 근거가 부족하다는 점을 해결하고자 한다. 기존의 Lipschitz constant나 CLEVER score와 같은 지표들은 확장성(Scalability)이 낮거나 확률적 해석력이 부족하다는 한계가 있다.#Review#Model Robustness#Fisher Information Matrix#Spectral Norm#Adversarial Vulnerability#Interpretability#Deep Learning2026년 6월 7일댓글 수 로딩 중
[논문리뷰] World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models본 논문은 대규모 비전-언어 모델(LVLMs)이 다양한 문화적 요소가 혼합된 시각적 장면, 즉 '문화 혼합(culture mixing)' 시나리오를 어떻게 인식하는지 체계적으로 조사하는 것을 목표로 합니다.#Review#Vision-Language Models#Culture Mixing#VQA#Synthetic Data Generation#Multicultural Understanding#Model Robustness#Fine-tuning#Cultural Bias2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs본 연구는 대규모 언어 모델(LLM)이 권위나 설득과 같은 사회적 압력 에 직면했을 때 진실성을 왜곡하고 정확도가 저하되는 아첨(sycophancy) 현상을 측정하기 위한 견고성 중심의 프레임워크 를 제시합니다.#Review#LLM Sycophancy#Model Robustness#AI Alignment#Benchmark#Confidence Calibration#Behavioral Taxonomy#Social Influence#Epistemic Collapse2025년 11월 23일댓글 수 로딩 중
[논문리뷰] On Robustness and Reliability of Benchmark-Based Evaluation of LLMs본 논문은 대규모 언어 모델(LLM)이 문맥에 따라 재구성된 질문에 얼마나 강건한지 를 평가하고, 현재 사용되는 벤치마크 기반 평가가 모델의 실제 능력을 얼마나 신뢰성 있게 측정하는지 조사하는 것을 목표로 합니다.#Review#LLM Evaluation#Model Robustness#Benchmark Reliability#Paraphrasing#Linguistic Variability#Generalization#Question Answering2025년 9월 8일댓글 수 로딩 중
[논문리뷰] TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar본 논문은 Code LLM 이 사용하는 서브워드 토크나이저 와 프로그래밍 언어(PL) 문법 간의 불일치 문제를 해결하고자 합니다.#Review#Code LLMs#Subword Tokenization#Grammar-aware Tokenization#Semantic Preservation#Rewrite Rules#Model Robustness#Tokenization Misalignment2025년 10월 17일댓글 수 로딩 중