#Benchmark Dataset

15개의 포스트

[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.

#Review #Egocentric Vision #Multi-Agent Systems #Video Question Answering #Long-Horizon Reasoning #Embodied AI #Benchmark Dataset #Shared Memory #Dynamic Retrieval

2026년 3월 11일

[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.

#Review #Referring Expression Comprehension #MLLM #Visual Reasoning #Benchmark Dataset #Hard Distractors #Grounding Shortcuts #Chain-of-Thought #Negation

2026년 3월 1일

[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework

본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.

#Review #Hate Speech Detection #Explainable AI (XAI)#Multilingual NLP #Large Language Models (LLMs)#Attention Mechanism #N-gram Explanations #Human Rationales #Benchmark Dataset

2026년 1월 6일

[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models

본 논문은 최신 Vision-Language Models (VLMs)에 내재된 인기도 편향(popularity bias)을 탐구하고 노출하는 것을 목표로 합니다.

#Review #Vision-Language Models (VLMs)#Popularity Bias #Ordinal Regression #Building Age Estimation #Multi-modal Learning #Benchmark Dataset #Explainable AI

2025년 12월 24일

[논문리뷰] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting

본 연구는 주로 자연 이미지에 훈련된 Multimodal Large Language Models (MLLMs) 의 적외선 이미지 이해 능력이 미개척 상태임을 문제로 인식하고 있습니다.

#Review #Multimodal Large Language Models (MLLMs)#Infrared Image Understanding #Benchmark Dataset #Visual Question Answering (VQA)#Generative Visual Prompting (GenViP)#Domain Adaptation #Image-to-Image Translation

2025년 12월 10일

[논문리뷰] FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

본 논문은 기존 VLN(Vision-and-Language Navigation) 시스템의 정적인 지시, 사회적 의도 모델링 부족, 비현실적인 상호작용 환경 등의 한계를 극복하고자 합니다.

#Review #Embodied AI #Vision-and-Language Navigation (VLN)#LLM-driven Simulation #Human-Agent Interaction #Closed-Loop #Benchmark Dataset #Social Cognition

2025년 11월 19일

[논문리뷰] miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

본 연구는 AI 시스템이 수학 올림피아드 문제에 참여하는 시나리오에서 miniF2F 벤치마크 의 비공식 및 공식 진술 간의 불일치와 오류를 분석하고 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Autoformalization #Benchmark Dataset #miniF2F #Lean Language #Large Language Models #Mathematical Reasoning #Formal Verification

2025년 11월 16일

[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI

본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.

#Review #Ethical Reasoning #Mental Health AI #Benchmark Dataset #Large Language Models #AI Ethics #Clinical Decision Support #Human-in-the-loop

2025년 9월 16일

[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding

본 논문은 대규모 비디오 모델(LVM)이 입력 비디오와 불일치하는 내용을 생성하는 '환각(hallucination)' 문제를 해결하는 것을 목표로 합니다.

#Review #Video Hallucination #Large Video Models (LVMs)#Hierarchical Reasoning #Spatial-Temporal Grounding #Diagnostic Framework #Benchmark Dataset #Multimodal AI

2025년 9월 16일

[논문리뷰] Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

본 연구는 LLM(Large Language Models)이 겉으로는 논리적이지만 심층적인 역설적 의미를 담고 있는 'Drivelology(심오한 헛소리)'를 얼마나 깊이 이해하는지 평가하는 것을 목표로 합니다. 통계적 유창성을 넘어선 LLM의 진정한 인지적 이해, 특히 실용적 이해 의 근본적인 한계를 밝히고자 합니다.

#Review #Large Language Models #Pragmatic Understanding #Drivelology #Benchmark Dataset #Multilingual NLP #Semantic Reasoning #Contextual Inference

2025년 9월 5일

[논문리뷰] T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

본 논문은 대규모 언어 모델(LLMs)의 테이블 추론 능력을 산업 애플리케이션에 적용하는 데 있어, 테이블 정보를 포괄적인 보고서로 변환하는 핵심 과제를 해결하고자 합니다. 특히, 복잡하고 다양한 테이블로 인한 추론 성능 저하와 기존 벤치마크의 실제 적용 평가 능력 부족이라는 두 가지 주요 문제를 다룹니다.

#Review #Table-to-Report Generation #Large Language Models (LLMs)#Benchmark Dataset #Industrial Applications #Table Reasoning #Evaluation Metrics #Real-world Data

2025년 9월 2일

[논문리뷰] FakeParts: a New Family of AI-Generated DeepFakes

본 연구는 미묘하고 국소적인 조작이 가해져 탐지하기 어려운 새로운 형태의 딥페이크인 FakeParts 를 정의하고, 기존 탐지 시스템의 한계를 극복하기 위해 포괄적인 벤치마크 데이터셋 FakePartsBench 를 구축하는 것을 목표로 합니다.

#Review #Deepfake Detection #Partial Deepfakes #AI-Generated Video #Benchmark Dataset #Video Forensics #Generative Models #Manipulation Detection #Human Perception

2025년 8월 29일

[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding

논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.

#Review #3D Occupancy Grounding #Multi-modal Learning #Natural Language Understanding #Autonomous Driving #Voxel-based Prediction #Benchmark Dataset #Coarse-to-Fine

2025년 8월 7일

[논문리뷰] DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation

본 연구는 웹 소설 번역에 대한 기존 기계 번역(MT) 평가 벤치마크들이 표면적 지표에 의존하여 서사적 일관성, 문체적 충실도, 문화적 뉘앙스를 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Machine Translation Evaluation #Large Language Models (LLMs)#Web Novel Translation #Multi-Agent Systems #Cultural Nuance #Benchmark Dataset #Natural Language Generation

2025년 10월 15일

[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)

이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.

#Review #Legal Information Retrieval #Embedding Models #Benchmark Dataset #Natural Language Processing #Retrieval-Augmented Generation #Jurisdictional Diversity #Legal Tech

2025년 10월 24일