#Reasoning Taxonomy

1개의 포스트

[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.

#Review #Multilingual Benchmark #Commonsense Reasoning #LLM Evaluation #Reasoning Taxonomy #Benchmark Scaling #Data Synthesis #Cultural Nuances

2025년 8월 21일