#Evaluation Benchmark

18개의 포스트

[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.

#Review #Long-form Speech Generation #SwanBench-Speech #Speech Synthesis #Evaluation Benchmark #Prosodic Coherence #Acoustic Consistency #Expressive Hierarchy

2026년 5월 31일

[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?

본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .

#Review #Visual Generative Models #Visual Reasoning #Evaluation Benchmark #Chain-of-Thought #Process-Outcome Evaluation

2026년 4월 1일

[논문리뷰] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models

기존 비디오 기반 World Models 의 평가 벤치마크들은 주로 시각적 충실도(visual fidelity) 및 텍스트-비디오 정렬(text-video alignment)에만 협소하게 초점을 맞추거나, 시간적 역동성(temporal dynamics)을 근본적으로 무시하는 정적 3D 재구성(3D reconstruction) 메트릭에 의존해왔다.

#Review #World Models #4D Generation #Interactive Response #Evaluation Benchmark #Omni-WorldSuite #Omni-Metrics #AgenticScore #Causal Consistency

2026년 3월 23일

[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.

#Review #Artificial General Intelligence (AGI)#Evaluation Benchmark #General Game Playing #Large Language Models (LLMs)#Human-in-the-loop #Cognitive Capabilities #Vision-Language Models (VLMs)#Game Generation

2026년 2월 26일

[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals

본 논문은 LLM의 불투명한 의사결정 과정으로 인해 고위험 도메인에서의 적용이 어려운 문제를 해결하고자 합니다.

#Review #LLM Explainability #Causal Inference #Structural Counterfactuals #Concept-Based Explanations #Evaluation Benchmark #Faithfulness #SCM

2026년 1월 20일

[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes

본 논문은 최신 대규모 시각 언어 모델(LVLM) 이 다중 이미지 환경에서 보여주는 한계와 실패 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히 모델이 이미지 간 정보를 효과적으로 집계하고, 여러 개념을 동시에 추적하며, 시각적 방해 요소에 대해 얼마나 강건한지를 평가하여 근본적인 약점을 식별하고자 합니다.

#Review #Vision Language Models #Multi-Image Understanding #Failure Analysis #Evaluation Benchmark #Attention Mechanism #Fine-tuning #MIMIC

2026년 1월 18일

[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models

본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.

#Review #Text Encoder #Diffusion Models #Text Embedding #Evaluation Benchmark #MLLM Fine-tuning #Layer-wise Weighting #Text-to-Image Generation #Text-to-Video Generation

2025년 12월 29일

[논문리뷰] ViDiC: Video Difference Captioning

본 논문은 동적 비디오 시퀀스 간의 시각적 차이를 이해하고 설명하는 Video Difference Captioning (ViDiC) 이라는 새로운 태스크를 제안합니다.

#Review #Video Difference Captioning #Multimodal Large Language Models #Video Understanding #Comparative Reasoning #Evaluation Benchmark #LLM-as-a-Judge #ViDiC-1K

2025년 12월 3일

[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?

본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.

#Review #Deep Research Agents #Evaluation Benchmark #Failure Taxonomy #Report Generation #Information Retrieval #Reasoning Resilience #Content Fabrication #AI Agents

2025년 12월 1일

[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.

#Review #Multimodal Large Language Models (MLLMs)#Multi-Video Understanding #Evaluation Benchmark #Video Perception #Video Reasoning #Sports Analytics #Autonomous Driving

2025년 11월 10일

[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents

본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.

#Review #Memory Systems #AI Agents #Hallucination Detection #Evaluation Benchmark #Long-term Memory #Memory Extraction #Memory Updating #Question Answering

2025년 11월 10일

[논문리뷰] LIMI: Less is More for Agency

현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.

#Review #AI Agency #Data Curation #Less Is More #Agentic Intelligence #Foundation Models #Evaluation Benchmark #Efficiency Principle #Large Language Models

2025년 9월 23일

[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Driven Talking Head Synthesis #Large-Scale Dataset #Data Diversity #Data Curation #Evaluation Benchmark #Generalization Gap #Algorithmic Fairness

2025년 9월 1일

[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints

본 연구는 기존 비디오 생성 모델들이 상상적인 시나리오 나 장거리 의미론적 관계 를 포함하는 프롬프트에서 성능이 저하되는 문제를 해결하고자 합니다.

#Review #Video Generation #Test-Time Search #Diffusion Models #Semantic Dependency #Adaptive Reward #Evaluation Benchmark #Prompt-Guided

2025년 10월 17일

[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics

논문은 멀티-홉 딥 서치 태스크에서 RAG 시스템 및 웹 에이전트 평가의 기존 한계를 해결하고자 합니다.

#Review #Deep Search #Multi-hop Reasoning #Evaluation Benchmark #Retrieval-Augmented Generation #Web Agents #Diagnostic Metrics #Knowledge Utilization #Hint-Free Questions

2025년 10월 8일

[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured Visuals

본 연구는 최신 시각 생성 모델들이 차트, 다이어그램, 수학 도형과 같은 구조화된 시각 자료 생성 및 편집에서 보이는 한계를 해결하고자 합니다. 이러한 자료들은 구성 계획 , 텍스트 렌더링 , 멀티모달 추론 을 통한 사실적 정확성 을 요구하며, 이 분야에 대한 체계적인 탐구가 부족하다는 문제를 인식했습니다.

#Review #Structured Visuals #Image Generation #Image Editing #Multimodal Reasoning #Factual Fidelity #Chain-of-Thought #Evaluation Benchmark #Diffusion Models

2025년 10월 7일

[논문리뷰] Paper2Web: Let's Make Your Paper Alive!

이 논문은 학술 논문을 레이아웃 인식적이고 상호작용적이며 멀티미디어 가 풍부한 웹 페이지로 변환하는 PAPER2WEB 이라는 새로운 태스크를 제안합니다.

#Review #Academic Webpage Generation #Multi-Agent Systems #Large Language Models #Model Context Protocol #Interactive Content #Multimedia Dissemination #Evaluation Benchmark #Human-Computer Interaction

2025년 10월 20일

[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!

본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.

#Review #Large Language Models (LLMs)#Operational Safety #Out-of-Domain (OOD)#Prompt Steering #Jailbreak Attacks #Evaluation Benchmark #Refusal Rate

2025년 10월 1일