[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific ReasoningYuqiang Li이 arXiv에 게시한 'ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Benchmark#LLMs#Scientific Reasoning#Multidisciplinary#AI4S#Data Contamination#Evaluation#LRM-as-Judge2025년 11월 18일댓글 수 로딩 중
[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal RetrievalTingyu Song이 arXiv에 게시한 'MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Retrieval#Benchmark#Reasoning#Multidisciplinary#Expert-Level#Image-Text Interleaving#Contradiction Retrieval2025년 10월 13일댓글 수 로딩 중
[논문리뷰] GenExam: A Multidisciplinary Text-to-Image ExamYu Qiao이 arXiv에 게시한 'GenExam: A Multidisciplinary Text-to-Image Exam' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Multidisciplinary#Benchmark#Evaluation#AGI#Reasoning#Scoring System#Visual Question Answering2025년 9월 18일댓글 수 로딩 중