[논문리뷰] Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios본 논문은 Long-form speech generation 분야의 시스템적 평가가 체계적이지 못하다는 문제를 해결하기 위해 제안되었다. 기존 연구들은 제한된 도메인이나 단일 화자 설정에 머물러 있어, 실제 복잡한 하위 응용 프로그램과의 괴리가 존재한다.#Review#Long-form Speech Generation#SwanBench-Speech#Speech Synthesis#Evaluation Benchmark#Prosodic Coherence#Acoustic Consistency#Expressive Hierarchy2026년 5월 31일댓글 수 로딩 중
[논문리뷰] ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners?본 논문은 시각적 추론을 측정하기 위해 Physical, Knowledge, Symbolic 세 가지 영역을 포괄하는 ViGoR-Bench를 제안합니다 . 이 프레임워크는 Ground Truth(GT)를 기반으로 하여 모델의 생성 과정을 정밀하게 감시하는 Dual-Track Process-Outcome Evaluation 프로토콜을 구현합니다 .#Review#Visual Generative Models#Visual Reasoning#Evaluation Benchmark#Chain-of-Thought#Process-Outcome Evaluation2026년 4월 1일댓글 수 로딩 중
[논문리뷰] Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models기존 비디오 기반 World Models 의 평가 벤치마크들은 주로 시각적 충실도(visual fidelity) 및 텍스트-비디오 정렬(text-video alignment)에만 협소하게 초점을 맞추거나, 시간적 역동성(temporal dynamics)을 근본적으로 무시하는 정적 3D 재구성(3D reconstruction) 메트릭에 의존해왔다.#Review#World Models#4D Generation#Interactive Response#Evaluation Benchmark#Omni-WorldSuite#Omni-Metrics#AgenticScore#Causal Consistency2026년 3월 23일댓글 수 로딩 중
[논문리뷰] AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games본 논문은 협소하고 정적인 기존 AI 벤치마크의 한계를 극복하고, 인간과 유사한 일반 지능(AGI)을 평가하기 위한 확장 가능하며 개방형의 새로운 접근 방식을 제안합니다. 특히, AI 시스템이 인간이 고안한 모든 게임 을 얼마나 잘 플레이하고 학습하는지를 통해 AGI 역량을 측정하고자 합니다.#Review#Artificial General Intelligence (AGI)#Evaluation Benchmark#General Game Playing#Large Language Models (LLMs)#Human-in-the-loop#Cognitive Capabilities#Vision-Language Models (VLMs)#Game Generation2026년 2월 26일댓글 수 로딩 중
[논문리뷰] LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals본 논문은 LLM의 불투명한 의사결정 과정으로 인해 고위험 도메인에서의 적용이 어려운 문제를 해결하고자 합니다.#Review#LLM Explainability#Causal Inference#Structural Counterfactuals#Concept-Based Explanations#Evaluation Benchmark#Faithfulness#SCM2026년 1월 20일댓글 수 로딩 중
[논문리뷰] More Images, More Problems? A Controlled Analysis of VLM Failure Modes본 논문은 최신 대규모 시각 언어 모델(LVLM) 이 다중 이미지 환경에서 보여주는 한계와 실패 원인을 체계적으로 분석하는 것을 목표로 합니다. 특히 모델이 이미지 간 정보를 효과적으로 집계하고, 여러 개념을 동시에 추적하며, 시각적 방해 요소에 대해 얼마나 강건한지를 평가하여 근본적인 약점을 식별하고자 합니다.#Review#Vision Language Models#Multi-Image Understanding#Failure Analysis#Evaluation Benchmark#Attention Mechanism#Fine-tuning#MIMIC2026년 1월 18일댓글 수 로딩 중
[논문리뷰] GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models본 논문은 텍스트-이미지(T2I) 및 텍스트-비디오(T2V) 확산 모델에서 핵심 구성 요소인 텍스트 인코더의 두 가지 주요 과제를 해결하고자 합니다.#Review#Text Encoder#Diffusion Models#Text Embedding#Evaluation Benchmark#MLLM Fine-tuning#Layer-wise Weighting#Text-to-Image Generation#Text-to-Video Generation2025년 12월 29일댓글 수 로딩 중
[논문리뷰] ViDiC: Video Difference Captioning본 논문은 동적 비디오 시퀀스 간의 시각적 차이를 이해하고 설명하는 Video Difference Captioning (ViDiC) 이라는 새로운 태스크를 제안합니다.#Review#Video Difference Captioning#Multimodal Large Language Models#Video Understanding#Comparative Reasoning#Evaluation Benchmark#LLM-as-a-Judge#ViDiC-1K2025년 12월 3일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.#Review#Deep Research Agents#Evaluation Benchmark#Failure Taxonomy#Report Generation#Information Retrieval#Reasoning Resilience#Content Fabrication#AI Agents2025년 12월 1일댓글 수 로딩 중
[논문리뷰] MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs본 연구는 기존 MLLM 평가 벤치마크가 단일 비디오 이해에만 초점을 맞추어 실세계의 다중 비디오 시나리오(예: 스포츠 분석, 자율 주행)의 중요성을 간과하는 한계를 해결하고자 합니다. 이를 위해 MLLM 의 다중 비디오 이해 능력을 종합적으로 평가할 수 있는 최초의 벤치마크인 MVU-Eval 을 제안합니다.#Review#Multimodal Large Language Models (MLLMs)#Multi-Video Understanding#Evaluation Benchmark#Video Perception#Video Reasoning#Sports Analytics#Autonomous Driving2025년 11월 10일댓글 수 로딩 중
[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.#Review#Memory Systems#AI Agents#Hallucination Detection#Evaluation Benchmark#Long-term Memory#Memory Extraction#Memory Updating#Question Answering2025년 11월 10일댓글 수 로딩 중
[논문리뷰] LIMI: Less is More for Agency현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.#Review#AI Agency#Data Curation#Less Is More#Agentic Intelligence#Foundation Models#Evaluation Benchmark#Efficiency Principle#Large Language Models2025년 9월 23일댓글 수 로딩 중
[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.#Review#Audio-Driven Talking Head Synthesis#Large-Scale Dataset#Data Diversity#Data Curation#Evaluation Benchmark#Generalization Gap#Algorithmic Fairness2025년 9월 1일댓글 수 로딩 중
[논문리뷰] ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints본 연구는 기존 비디오 생성 모델들이 상상적인 시나리오 나 장거리 의미론적 관계 를 포함하는 프롬프트에서 성능이 저하되는 문제를 해결하고자 합니다.#Review#Video Generation#Test-Time Search#Diffusion Models#Semantic Dependency#Adaptive Reward#Evaluation Benchmark#Prompt-Guided2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics논문은 멀티-홉 딥 서치 태스크에서 RAG 시스템 및 웹 에이전트 평가의 기존 한계를 해결하고자 합니다.#Review#Deep Search#Multi-hop Reasoning#Evaluation Benchmark#Retrieval-Augmented Generation#Web Agents#Diagnostic Metrics#Knowledge Utilization#Hint-Free Questions2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Factuality Matters: When Image Generation and Editing Meet Structured Visuals본 연구는 최신 시각 생성 모델들이 차트, 다이어그램, 수학 도형과 같은 구조화된 시각 자료 생성 및 편집에서 보이는 한계를 해결하고자 합니다. 이러한 자료들은 구성 계획 , 텍스트 렌더링 , 멀티모달 추론 을 통한 사실적 정확성 을 요구하며, 이 분야에 대한 체계적인 탐구가 부족하다는 문제를 인식했습니다.#Review#Structured Visuals#Image Generation#Image Editing#Multimodal Reasoning#Factual Fidelity#Chain-of-Thought#Evaluation Benchmark#Diffusion Models2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Paper2Web: Let's Make Your Paper Alive!이 논문은 학술 논문을 레이아웃 인식적이고 상호작용적이며 멀티미디어 가 풍부한 웹 페이지로 변환하는 PAPER2WEB 이라는 새로운 태스크를 제안합니다.#Review#Academic Webpage Generation#Multi-Agent Systems#Large Language Models#Model Context Protocol#Interactive Content#Multimedia Dissemination#Evaluation Benchmark#Human-Computer Interaction2025년 10월 20일댓글 수 로딩 중
[논문리뷰] OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!본 논문은 대규모 언어 모델(LLM)의 운영 안전성(operational safety) 이라는 중요한 측면을 다룹니다. 이는 LLM 기반 에이전트가 특정 목적에 맞춰 인도메인(in-domain) 쿼리를 적절히 수락하고 아웃오브도메인(OOD) 쿼리를 거부 하는 능력을 의미합니다.#Review#Large Language Models (LLMs)#Operational Safety#Out-of-Domain (OOD)#Prompt Steering#Jailbreak Attacks#Evaluation Benchmark#Refusal Rate2025년 10월 1일댓글 수 로딩 중