[논문리뷰] Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction본 논문은 LLM이 인간이 인지하는 문항(질문 또는 과제) 난이도를 정확하게 예측할 수 있는지, 특히 초기 데이터 부족 문제(cold-start problem) 상황에서 인간-AI 난이도 정렬(Human-AI Difficulty Alignment) 을 달성할 수 있는지 실증적으로 분석하는 것을 목표로 합니다.#Review#Large Language Models#Item Difficulty Prediction#Human-AI Alignment#Proficiency Simulation#Metacognition#Curse of Knowledge#Educational Assessment#Zero-shot Learning2025년 12월 22일댓글 수 로딩 중
[논문리뷰] MEENA (PersianMMMU): Multimodal-Multilingual Educational Exams for N-level Assessment본 논문은 영어 중심의 기존 VLM 벤치마크의 한계를 해결하고, 특히 페르시아어와 같은 저자원 언어에서 과학, 추론, 인간 수준의 이해 능력을 평가하기 위한 최초의 종합적인 멀티모달-멀티링구얼 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Multimodal Language Models#Multilingual Benchmarking#Persian Language#Educational Assessment#Vision-Language Models#Cultural Nuance#Reasoning Tasks2025년 8월 26일댓글 수 로딩 중
[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?본 논문은 베트남어 다중 양식 시험 문제에 대한 Vision Language Models (VLMs) 의 성능을 평가하는 것을 목표로 합니다. 주로 영어 데이터로 훈련된 VLMs가 저자원 언어인 베트남어 환경에서 실제 교차 언어 복합 양식 추론 을 효과적으로 처리할 수 있는지 조사하고자 합니다.#Review#Vision Language Models#Multimodal AI#Vietnamese Language#Educational Assessment#Low-Resource Languages#Cross-Lingual Reasoning#ViExam#Human-in-the-Loop2025년 8월 21일댓글 수 로딩 중