[논문리뷰] MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents본 논문은 여러 embodied AI 에이전트 로부터 동시에 수집된 다중의 장기 에고센트릭 비디오 를 이해하고 추론하는 새로운 문제를 해결하는 것을 목표로 합니다.#Review#Egocentric Vision#Multi-Agent Systems#Video Question Answering#Long-Horizon Reasoning#Embodied AI#Benchmark Dataset#Shared Memory#Dynamic Retrieval2026년 3월 11일댓글 수 로딩 중
[논문리뷰] Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks본 연구는 기존 참조 표현 이해(REC) 벤치마크( RefCOCO/+/g )가 짧은 표현, 적은 방해물, 중복 설명으로 인한 grounding shortcut 등으로 MLLM 의 진정한 시각적 추론 및 접지 능력을 제대로 평가하지 못한다는 문제점을 해결하고자 합니다.#Review#Referring Expression Comprehension#MLLM#Visual Reasoning#Benchmark Dataset#Hard Distractors#Grounding Shortcuts#Chain-of-Thought#Negation2026년 3월 1일댓글 수 로딩 중
[논문리뷰] X-MuTeST: A Multilingual Benchmark for Explainable Hate Speech Detection and A Novel LLM-consulted Explanation Framework본 논문은 특히 저자원 인디아어(힌디어, 텔루구어)에서 혐오 발언 탐지(HSD)의 정확도와 설명 가능성 문제를 해결하는 것을 목표로 합니다.#Review#Hate Speech Detection#Explainable AI (XAI)#Multilingual NLP#Large Language Models (LLMs)#Attention Mechanism#N-gram Explanations#Human Rationales#Benchmark Dataset2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models본 논문은 최신 Vision-Language Models (VLMs)에 내재된 인기도 편향(popularity bias)을 탐구하고 노출하는 것을 목표로 합니다.#Review#Vision-Language Models (VLMs)#Popularity Bias#Ordinal Regression#Building Age Estimation#Multi-modal Learning#Benchmark Dataset#Explainable AI2025년 12월 24일댓글 수 로딩 중
[논문리뷰] IF-Bench: Benchmarking and Enhancing MLLMs for Infrared Images with Generative Visual Prompting본 연구는 주로 자연 이미지에 훈련된 Multimodal Large Language Models (MLLMs) 의 적외선 이미지 이해 능력이 미개척 상태임을 문제로 인식하고 있습니다.#Review#Multimodal Large Language Models (MLLMs)#Infrared Image Understanding#Benchmark Dataset#Visual Question Answering (VQA)#Generative Visual Prompting (GenViP)#Domain Adaptation#Image-to-Image Translation2025년 12월 10일댓글 수 로딩 중
[논문리뷰] FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI본 논문은 기존 VLN(Vision-and-Language Navigation) 시스템의 정적인 지시, 사회적 의도 모델링 부족, 비현실적인 상호작용 환경 등의 한계를 극복하고자 합니다.#Review#Embodied AI#Vision-and-Language Navigation (VLN)#LLM-driven Simulation#Human-Agent Interaction#Closed-Loop#Benchmark Dataset#Social Cognition2025년 11월 19일댓글 수 로딩 중
[논문리뷰] miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward본 연구는 AI 시스템이 수학 올림피아드 문제에 참여하는 시나리오에서 miniF2F 벤치마크 의 비공식 및 공식 진술 간의 불일치와 오류를 분석하고 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Autoformalization#Benchmark Dataset#miniF2F#Lean Language#Large Language Models#Mathematical Reasoning#Formal Verification2025년 11월 16일댓글 수 로딩 중
[논문리뷰] EthicsMH: A Pilot Benchmark for Ethical Reasoning in Mental Health AI본 논문은 대규모 언어 모델(LLM)이 정신 건강과 같은 민감한 도메인에서 직면하는 윤리적 추론의 한계를 해결하고자 합니다.#Review#Ethical Reasoning#Mental Health AI#Benchmark Dataset#Large Language Models#AI Ethics#Clinical Decision Support#Human-in-the-loop2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding본 논문은 대규모 비디오 모델(LVM)이 입력 비디오와 불일치하는 내용을 생성하는 '환각(hallucination)' 문제를 해결하는 것을 목표로 합니다.#Review#Video Hallucination#Large Video Models (LVMs)#Hierarchical Reasoning#Spatial-Temporal Grounding#Diagnostic Framework#Benchmark Dataset#Multimodal AI2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth본 연구는 LLM(Large Language Models)이 겉으로는 논리적이지만 심층적인 역설적 의미를 담고 있는 'Drivelology(심오한 헛소리)'를 얼마나 깊이 이해하는지 평가하는 것을 목표로 합니다. 통계적 유창성을 넘어선 LLM의 진정한 인지적 이해, 특히 실용적 이해 의 근본적인 한계를 밝히고자 합니다.#Review#Large Language Models#Pragmatic Understanding#Drivelology#Benchmark Dataset#Multilingual NLP#Semantic Reasoning#Contextual Inference2025년 9월 5일댓글 수 로딩 중
[논문리뷰] T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables본 논문은 대규모 언어 모델(LLMs)의 테이블 추론 능력을 산업 애플리케이션에 적용하는 데 있어, 테이블 정보를 포괄적인 보고서로 변환하는 핵심 과제를 해결하고자 합니다. 특히, 복잡하고 다양한 테이블로 인한 추론 성능 저하와 기존 벤치마크의 실제 적용 평가 능력 부족이라는 두 가지 주요 문제를 다룹니다.#Review#Table-to-Report Generation#Large Language Models (LLMs)#Benchmark Dataset#Industrial Applications#Table Reasoning#Evaluation Metrics#Real-world Data2025년 9월 2일댓글 수 로딩 중
[논문리뷰] FakeParts: a New Family of AI-Generated DeepFakes본 연구는 미묘하고 국소적인 조작이 가해져 탐지하기 어려운 새로운 형태의 딥페이크인 FakeParts 를 정의하고, 기존 탐지 시스템의 한계를 극복하기 위해 포괄적인 벤치마크 데이터셋 FakePartsBench 를 구축하는 것을 목표로 합니다.#Review#Deepfake Detection#Partial Deepfakes#AI-Generated Video#Benchmark Dataset#Video Forensics#Generative Models#Manipulation Detection#Human Perception2025년 8월 29일댓글 수 로딩 중
[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding논문은 기존 바운딩 박스 기반 시각 그라운딩의 한계를 극복하고, 자율주행 환경에서 자연어 설명을 기반으로 객체의 정확한 3D 점유(occupancy) 정보 를 파악하는 것을 목표로 합니다.#Review#3D Occupancy Grounding#Multi-modal Learning#Natural Language Understanding#Autonomous Driving#Voxel-based Prediction#Benchmark Dataset#Coarse-to-Fine2025년 8월 7일댓글 수 로딩 중
[논문리뷰] DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation본 연구는 웹 소설 번역에 대한 기존 기계 번역(MT) 평가 벤치마크들이 표면적 지표에 의존하여 서사적 일관성, 문체적 충실도, 문화적 뉘앙스를 포착하지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Machine Translation Evaluation#Large Language Models (LLMs)#Web Novel Translation#Multi-Agent Systems#Cultural Nuance#Benchmark Dataset#Natural Language Generation2025년 10월 15일댓글 수 로딩 중
[논문리뷰] The Massive Legal Embedding Benchmark (MLEB)이 논문은 기존 법률 정보 검색(IR) 벤치마크의 한계, 즉 낮은 품질, 부족한 다양성, 그리고 실제 성능 예측 실패 문제를 해결하는 것을 목표로 합니다.#Review#Legal Information Retrieval#Embedding Models#Benchmark Dataset#Natural Language Processing#Retrieval-Augmented Generation#Jurisdictional Diversity#Legal Tech2025년 10월 24일댓글 수 로딩 중