[논문리뷰] SEM: Sparse Embedding Modulation for Post-Hoc Debiasing of Vision-Language ModelsCLIP과 같은 Vision-Language Models (VLMs)는 multimodal AI의 핵심 구성 요소이지만, 대규모의 uncurated training data로 인해 심각한 social 및 spurious bias가 내재되어 있다.#Review#Vision-Language Models#CLIP#Debiasing#Sparse Autoencoder#Post-Hoc#Zero-Shot#Feature Disentanglement#Bias Mitigation2026년 3월 23일댓글 수 로딩 중
[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.#Review#Text-to-Image#LVLM#Social Bias#System Prompts#Bias Mitigation#Meta-Prompting#Fairness#Generative AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts이 논문은 Multimodal Large Language Model (MLLM)이 시각적 이해 없이 비시각적 단축키(편향, 언어적 선험지식, 피상적인 패턴)를 악용하여 멀티모달 벤치마크에서 높은 점수를 얻는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Benchmark Design#Non-Visual Shortcuts#Test-Set Stress-Test#Bias Mitigation#Model Evaluation#Benchmark Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] SteeringControl: Holistic Evaluation of Alignment Steering in LLMs대규모 언어 모델(LLM)의 정렬 조작(alignment steering) 방법론들을 총체적으로 평가 하는 것을 목표로 합니다.#Review#LLM Alignment#Representation Steering#Benchmark#Behavioral Entanglement#Bias Mitigation#Harmful Generation#Hallucination Control#Modular Framework2025년 9월 18일댓글 수 로딩 중
[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models대규모 언어 모델(LLMs)이 학습 데이터에서 발생하는 사회적 편향, 특히 인도 사회의 카스트 및 종교 관련 편향 을 반영하여 유해하거나 편향된 출력을 생성하는 문제를 해결하고자 합니다.#Review#Bias Mitigation#Large Language Models#Speculative Decoding#Constitutional AI#Fairness#Inference-Time Control#Indian Sociocultural Context2025년 9월 3일댓글 수 로딩 중
[논문리뷰] CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection본 논문은 기존의 Sparse Autoencoder (SAE) 기반 LLM 조향 방식이 요구하는 대규모 대조 데이터셋 또는 방대한 활성화 저장 공간 의 한계를 해결하고자 합니다.#Review#Sparse Autoencoders#LLM Steering#Feature Selection#Correlation Analysis#AI Safety#Bias Mitigation#Mechanistic Interpretability2025년 8월 20일댓글 수 로딩 중
[논문리뷰] BiasGym: Fantastic Biases and How to Find (and Remove) Them대규모 언어 모델(LLM)에 인코딩된 편향과 고정관념을 신뢰할 수 있게 감지하고 완화하기 위한 간단하고 비용 효율적이며 일반화 가능한 프레임워크를 개발하는 것이 목표입니다. 특히, 미묘하고 격리하기 어려운 LLM의 편향된 행동을 체계적으로 분석하고 디바이싱하는 어려움을 해결하고자 합니다.#Review#Bias Mitigation#LLMs#Mechanistic Interpretability#Fine-tuning#Attention Steering#Stereotype Analysis#Safety Alignment2025년 8월 13일댓글 수 로딩 중