[논문리뷰] Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models본 연구는 최근 LVLM(Large Vision-Language Model) 기반 텍스트-투-이미지(T2I) 모델 이 이미지 생성에서 높은 품질을 달성했음에도 불구하고, 사회적 편향을 얼마나 증폭시키는지에 대한 이해가 부족하다는 문제의식을 제기합니다.#Review#Text-to-Image#LVLM#Social Bias#System Prompts#Bias Mitigation#Meta-Prompting#Fairness#Generative AI2025년 12월 4일댓글 수 로딩 중
[논문리뷰] TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models본 연구는 테이블 형식 파운데이션 모델(Tabular Foundation Models, TFMs) 의 복잡한 전처리, 분산된 API, 비일관적인 미세 조정 절차 및 표준화되지 않은 평가(특히 보정 및 공정성 지표) 문제로 인해 실용적인 채택이 제한되는 것을 해결하는 것을 목표로 합니다.#Review#Tabular Foundation Models#Fine-Tuning#PEFT#Meta-Learning#Calibration#Fairness#Unified Library#Benchmarking2025년 11월 9일댓글 수 로딩 중
[논문리뷰] AMBEDKAR-A Multi-level Bias Elimination through a Decoding Approach with Knowledge Augmentation for Robust Constitutional Alignment of Language Models대규모 언어 모델(LLMs)이 학습 데이터에서 발생하는 사회적 편향, 특히 인도 사회의 카스트 및 종교 관련 편향 을 반영하여 유해하거나 편향된 출력을 생성하는 문제를 해결하고자 합니다.#Review#Bias Mitigation#Large Language Models#Speculative Decoding#Constitutional AI#Fairness#Inference-Time Control#Indian Sociocultural Context2025년 9월 3일댓글 수 로딩 중
[논문리뷰] AHELM: A Holistic Evaluation of Audio-Language Models오디오-언어 모델(ALMs)의 표준화된 벤치마크 부족 문제를 해결하고, 기존 평가들이 제한된 기능에만 초점을 맞추며 공정성 및 안전성 같은 중요한 측면을 간과하는 한계를 극복하는 것을 목표로 합니다.#Review#Audio-Language Models#Holistic Evaluation#Benchmarking#Multimodality#Fairness#Robustness#Reasoning#Bias Detection2025년 9월 1일댓글 수 로딩 중
[논문리뷰] BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent현재 Deep-Research 에이전트 평가 벤치마크(예: BrowseComp)는 라이브 웹 검색 API 에 의존하여 공정성, 재현성 및 투명성 측면에서 중대한 한계를 가집니다.#Review#Benchmarking#Deep-Research Agents#LLMs#Retrieval#Curated Corpus#Evaluation#Fairness#Transparency#Reproducibility2025년 8월 12일댓글 수 로딩 중
[논문리뷰] I Think, Therefore I Am Under-Qualified? A Benchmark for Evaluating Linguistic Shibboleth Detection in LLM Hiring Evaluations본 논문은 대규모 언어 모델(LLM)이 채용 평가에서 언어적 시볼레트(linguistic shibboleths) , 특히 완곡어법(hedging language)을 기반으로 잠재적으로 인구통계학적 편향을 보이는 문제를 해결하고자 합니다.#Review#LLM Bias#Hiring Evaluation#Linguistic Shibboleth#Hedging Language#Fairness#Benchmarking#Sociolinguistics2025년 8월 8일댓글 수 로딩 중
[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain본 논문은 금융 도메인에서 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 FINTRUST 벤치마크를 제시합니다.#Review#LLM Trustworthiness#Finance Domain#Benchmark#Alignment Evaluation#Financial AI#Hallucination#Privacy#Fairness2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.#Review#LLM Bias Mitigation#Benchmark#Evaluation Metrics#Prompt Engineering#Fine-tuning#Bias-Free Score#Fairness2025년 10월 2일댓글 수 로딩 중