[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.#Review#Multilingual Benchmark#Commonsense Reasoning#LLM Evaluation#Reasoning Taxonomy#Benchmark Scaling#Data Synthesis#Cultural Nuances2025년 8월 21일댓글 수 로딩 중