[논문리뷰] BenSyc: Benchmarking Conversational Sycophancy and Human Alignment in LLMs for Bengali Contexts본 연구는 현재의 LLM 평가 체계가 주로 영어 중심이며, Bengali와 같은 저자원 언어(Low-resource languages)에 대한 Alignment 및 Sycophancy 평가가 극히 제한적이라는 문제의식에서 출발합니다.#Review#LLM#Sycophancy#Bengali#Alignment#Benchmarking#NLP#Multilingual Evaluation2026년 6월 9일댓글 수 로딩 중
[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5본 논문은 GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5 등 7개 최신 AI 모델의 안전성을 종합적이고 다차원적으로 평가하는 것을 목표로 합니다.#Review#AI Safety#Large Language Models#Multimodal LLMs#Benchmark Evaluation#Adversarial Robustness#Multilingual Evaluation#Regulatory Compliance#Image Generation Safety2026년 1월 15일댓글 수 로딩 중
[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains이 논문은 기존 벤치마크의 Anglocentric 및 도메인-불가지론적 한계를 해결하고, 인도 중심의 지식 시스템에 대한 평가 부족 문제를 다룹니다.#Review#Large Language Models (LLMs)#Benchmark#Indic Languages#Multilingual Evaluation#Domain-Specific AI#India-centric Knowledge Systems#Zero-Shot Learning#Question Answering2025년 10월 30일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중