#Multidisciplinary

3개의 포스트

[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Benchmark #LLMs #Scientific Reasoning #Multidisciplinary #AI4S #Data Contamination #Evaluation #LRM-as-Judge

2025년 11월 18일

[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam

기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #Text-to-Image Generation #Multidisciplinary #Benchmark #Evaluation #AGI #Reasoning #Scoring System #Visual Question Answering

2025년 9월 18일

[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Benchmark #Reasoning #Multidisciplinary #Expert-Level #Image-Text Interleaving #Contradiction Retrieval

2025년 10월 13일