#Multilingual Benchmark

2개의 포스트

[논문리뷰] WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing

저자들은 instruction-based image editing 분야에서 text-centric image editing 이 중요한 응용 잠재력에도 불구하고 아직 충분히 탐구되지 않은 영역임을 지적합니다.

#Review #Text-centric Image Editing #Diffusion Models #Glyph-Guided Fine-tuning #Reinforcement Learning #Multilingual Benchmark #Dataset Construction

2026년 3월 12일

[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.

#Review #Multilingual Benchmark #Commonsense Reasoning #LLM Evaluation #Reasoning Taxonomy #Benchmark Scaling #Data Synthesis #Cultural Nuances

2025년 8월 21일