#Evaluation Metrics

35개의 포스트

[논문리뷰] WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

최근 Interactive World Models의 발전에도 불구하고, 기존의 평가 방식은 단편적이며 체계적인 평가를 위한 통합된 표준이 부재하다.

#Review #Interactive World Models #Video Generation #Benchmark #Multi-turn Interaction #Evaluation Metrics

2026년 5월 25일

[논문리뷰] FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

최근 Large Language Models (LLMs)는 금융 애플리케이션에서 agent 로서 사용자 요청을 해석하고, 외부 도구를 호출하며, 다단계 추론을 수행해야 하는 역할을 점점 더 많이 맡고 있습니다.

#Review #LLM Agents #Financial Tool Use #Benchmarking #Model Context Protocol #Multi-tool Reasoning #Multi-turn Conversation #Evaluation Metrics

2026년 3월 26일

[논문리뷰] Making Reconstruction FID Predictive of Diffusion Generation FID

변이형 오토인코더(VAE)의 재구성 FID (rFID) 와 잠재 확산 모델(LDM)의 생성 FID (gFID) 사이의 낮은 상관관계, 즉 '재구성-생성 딜레마'를 해결하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #VAE #FID #Generative Models #Evaluation Metrics #Image Generation #Reconstruction-Generation Dilemma #Interpolation

2026년 3월 8일

[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Image Editing #Instruction-based Models #Small Object Editing #Benchmark #Evaluation Metrics #Large Multimodal Models (LMMs)#Visual Consistency

2026년 3월 1일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents

본 논문의 핵심 목표는 LLM 에이전트의 과학 연구 역량을 종합적으로 평가할 수 있는 표준화된 벤치마크인 AIRS-BENCH 를 도입하는 것입니다.

#Review #AI Research Agents #LLM Agents #Machine Learning Benchmarks #Scientific Discovery #Code Generation #Evaluation Metrics #Scaffolds #Reproducibility

2026년 2월 9일

[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.

#Review #Multimodal Models #Image Generation #Image Editing #Benchmark #Computer-Use Tasks #Planning #Evaluation Metrics

2026년 2월 8일

[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments

본 논문은 기존 모바일 GUI 에이전트 벤치마크가 메모리 능력을 체계적으로 평가하지 못하고 메모리 관련 태스크 비중이 5.2-11.8%에 불과 하며 교차 세션 학습 평가가 부재하다는 문제를 제기합니다.

#Review #Mobile GUI Agents #Memory Benchmarking #Short-Term Memory #Long-Term Memory #LLM-as-Judge #Dynamic Environments #Evaluation Metrics #Task Automation

2026년 2월 8일

[논문리뷰] MemoryRewardBench: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models

본 연구는 LLM의 장기 기억 관리 능력 을 평가하기 위한 Reward Model (RM)의 효용성과 한계 를 체계적으로 벤치마킹하는 것을 목표로 합니다. 특히, 세그먼트 방식으로 긴 컨텍스트를 처리할 때 LLM의 중간 기억 관리 과정 을 RM이 얼마나 효과적으로 평가하고 설명할 수 있는지 탐구합니다.

#Review #Reward Models #LLM Memory Management #Benchmarking #Long Context #Evaluation Metrics #Generative RMs #Memory Management Patterns

2026년 1월 20일

[논문리뷰] On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

본 논문은 음성 언어 모델(SLM) 평가에 널리 사용되는 '글로벌 토큰 퍼플렉시티(Global Token Perplexity)' 가 음성과 텍스트 양식 간의 근본적인 차이를 간과하여 실제 성능을 왜곡할 수 있다는 문제를 제기합니다.

#Review #Spoken Language Models #Evaluation Metrics #Perplexity #Mean Opinion Score #Likelihood-based Evaluation #Model-as-a-Judge #Acoustic Consistency #Speech Generation

2026년 1월 12일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] Are We on the Right Way to Assessing LLM-as-a-Judge?

본 논문은 현재 LLM-as-a-Judge 평가 방법론이 인간 주석에 과도하게 의존하여 발생하는 편향, 불일치성, 확장성 문제를 해결하고자 합니다.

#Review #LLM-as-a-Judge #Evaluation Metrics #Consistency #Robustness #Positional Bias #Transitivity #Situational Preference #Multi-agent Systems

2025년 12월 21일

[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

이 논문은 음성 양식이 LLM(Large Language Model) 에 직접 통합될 때 음성-텍스트 번역(ST) 품질이 향상되는지, 아니면 기존의 계단식(cascaded) 또는 직접(direct) 모델 이 여전히 더 효과적인 솔루션인지 평가합니다.

#Review #Speech-to-Text Translation #Multimodal LLMs #Speech Foundation Models #Cascaded Systems #Benchmarking #Speech Modality Integration #Robustness #Evaluation Metrics

2025년 12월 18일

[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Jailbreak Attack #Attack-Defense Evaluation #Benchmark #Safety Alignment #Vulnerability Analysis #Risk Taxonomy #Evaluation Metrics

2025년 12월 8일

[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

현재 텍스트-이미지(T2I) 모델이 정적 이미지 생성에는 뛰어나지만, 시간 경과에 따라 전개되는 동적, 인과적 프로세스 를 모델링하는 데 한계가 있음을 지적합니다. 이 논문은 모델이 정적 패턴 매칭을 넘어 진정한 세계 지식을 내재화하고 인과적 시공간 제약을 준수하는지 평가하기 위한 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal AI #Text-to-Multi-Image #Causal Reasoning #World Knowledge #Benchmarking #Spatiotemporal Consistency #Generative Models #Evaluation Metrics

2025년 12월 1일

[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark

본 연구는 기존 LLM 도구 사용 벤치마크 들이 주로 텍스트 기반이고 선형적인 API 계획 에 초점을 맞추는 한계를 넘어, 멀티모달 LLM(MLLM) 에이전트 의 실제와 같은 도구 사용 능력을 평가하기 위한 첫 번째 벤치마크인 M³-Bench 를 제안합니다.

#Review #Multimodal LLM #Tool Use #Agent Benchmark #Model Context Protocol #Multi-Hop Reasoning #Multi-Threaded Execution #Evaluation Metrics #Similarity Alignment

2025년 11월 24일

[논문리뷰] Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

본 설문조사는 대규모 언어 모델(LLM) 을 활용한 과학적 아이디어 생성의 고유한 도전을 다루며, 특히 창의성과 과학적 타당성 사이의 균형을 맞추는 방법을 탐구합니다.

#Review #Large Language Models #Scientific Discovery #Idea Generation #Creativity #Survey #AI in Science #Prompt Engineering #Multi-agent Systems #Evaluation Metrics

2025년 11월 16일

[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models

이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.

#Review #Function Calling #LLMs #Instruction Following #Benchmarking #JSON Schema #AI Agents #Evaluation Metrics

2025년 9월 29일

[논문리뷰] Do You Hear What I Mean? Quantifying the Instruction-Perception Gap in Instruction-Guided Expressive Text-To-Speech Systems

이 논문은 ITTS (Instruction-Guided Text-to-Speech) 시스템에서 사용자의 자연어 명령(natural language prompts)과 청취자의 음성 지각(listener perception) 간의 불일치를 정량적으로 분석하는 것을 목표로 합니다.

#Review #Instruction-Guided TTS #Expressive Speech Synthesis #Human Perception #Subjective Evaluation #Controllability #Instruction Following #Evaluation Metrics

2025년 9월 22일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] Why Language Models Hallucinate

본 논문은 대규모 언어 모델(LLM)이 '환각' 현상, 즉 그럴듯하지만 틀린 정보를 자신감 있게 생성하는 이유를 통계적으로 분석하고, 이러한 문제가 최신 모델에서도 지속되는 근본적인 원인을 밝히는 것을 목표로 합니다.

#Review #Language Models #Hallucination #Pretraining #Post-training #Evaluation Metrics #Binary Classification #Uncertainty Quantification #Calibration

2025년 9월 8일

[논문리뷰] T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

본 논문은 대규모 언어 모델(LLMs)의 테이블 추론 능력을 산업 애플리케이션에 적용하는 데 있어, 테이블 정보를 포괄적인 보고서로 변환하는 핵심 과제를 해결하고자 합니다. 특히, 복잡하고 다양한 테이블로 인한 추론 성능 저하와 기존 벤치마크의 실제 적용 평가 능력 부족이라는 두 가지 주요 문제를 다룹니다.

#Review #Table-to-Report Generation #Large Language Models (LLMs)#Benchmark Dataset #Industrial Applications #Table Reasoning #Evaluation Metrics #Real-world Data

2025년 9월 2일

[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods

이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.

#Review #Visually-Guided Image Editing #Multimodal Models #Benchmark #Hallucination #Diffusion Models #Autoregressive Models #Evaluation Metrics

2025년 8월 26일

[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior

이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.

#Review #AI Companionship #Benchmark #Language Models (LLMs)#Human-AI Interaction #Emotional AI #Boundary Setting #Psychological Frameworks #Evaluation Metrics

2025년 8월 22일

[논문리뷰] Advances in Speech Separation: Techniques, Challenges, and Future Trends

본 논문은 '칵테일 파티 문제' 해결을 목표로 하는 DNN 기반 음성 분리 기술 에 대한 포괄적이고 체계적인 조사를 제공합니다. 빠르게 진화하는 이 분야의 파편화된 이해를 해소하고, 다양한 아키텍처, 학습 패러다임 및 공정한 정량적 평가에 대한 기존 조사들의 격차를 메우는 것을 목표로 합니다.

#Review #Speech Separation #Deep Neural Networks #Cocktail Party Problem #Transformer Architecture #Unsupervised Learning #Supervised Learning #Evaluation Metrics #Datasets

2025년 8월 20일

[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking

본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.

#Review #Agentic Search #LLM #Benchmark #Information Seeking #Structured Output #Evaluation Metrics #Multi-agent Systems

2025년 8월 12일

[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Tool Invocation #Benchmark #Model Context Protocol (MCP)#GUI Automation #Computer-Use Agents #Evaluation Metrics

2025년 10월 29일

[논문리뷰] From Charts to Code: A Hierarchical Benchmark for Multimodal Models

기존 차트-코드(chart-to-code) 벤치마크가 단순한 재현 작업에 치중하여 대규모 멀티모달 모델(LMM)의 실제 적용 능력과의 격차를 보였습니다.

#Review #Chart-to-Code #Multimodal Models #Hierarchical Benchmark #Chart Understanding #Code Generation #Evaluation Metrics #Benchmarking

2025년 10월 23일

[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?

이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.

#Review #Image Editing #Physical Realism #Benchmark #VLM-as-a-Judge #Synthetic Data #Physics-Aware AI #Diffusion Models #Evaluation Metrics

2025년 10월 21일

[논문리뷰] ReviewerToo: Should AI Join The Program Committee? A Look At The Future of Peer Review

과학 출판의 핵심인 피어 리뷰 과정에서 발생하는 불일치, 주관성, 확장성 문제를 해결하고, AI가 인간의 판단을 보완하는 체계적이고 일관된 평가를 제공할 수 있도록 AI 기반 피어 리뷰 시스템 을 연구하고 배포하는 것을 목표로 합니다.

#Review #Peer Review #AI-Assisted Review #Large Language Models #LLM Agents #Meta-Review #Conference Submissions #Reviewer Personas #Evaluation Metrics

2025년 10월 13일

[논문리뷰] When Benchmarks Age: Temporal Misalignment through Large Language Model Factuality Evaluation

본 연구는 대규모 언어 모델(LLM)의 급속한 발전과 실세계의 변화가 기존 사실성 평가 벤치마크의 신뢰성을 저해하는 문제를 다룹니다.

#Review #LLM Factuality Evaluation #Benchmark Aging #Temporal Misalignment #Information Retrieval #Question Answering #Evaluation Metrics #GPT-4o-mini #Qwen2.5

2025년 10월 9일

[논문리뷰] Bridging Text and Video Generation: A Survey

본 논문은 텍스트-투-비디오(T2V) 생성 모델의 발전 과정을 포괄적으로 분석하고, 초기 GANs 및 VAEs 기반 모델부터 최신 확산 기반 아키텍처까지 주요 혁신과 한계를 조명하는 것을 목표로 합니다.

#Review #Text-to-Video Generation #Generative Models #Diffusion Models #GANs #VAEs #Video Synthesis #Survey #Evaluation Metrics

2025년 10월 9일

[논문리뷰] Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

이 논문은 대규모 언어 모델(LLMs) 시대 의 코드-스위칭(CSW) NLP 연구 현황 을 종합적으로 분석하고, LLMs가 CSW 모델링에 미친 영향을 평가하며, 여전히 남아있는 과제를 식별하고 미래 연구 방향을 제시하는 것을 목표로 합니다.

#Review #Code-switching #Multilingual NLP #Large Language Models #NLP Survey #Data Augmentation #Evaluation Metrics #Low-Resource Languages

2025년 10월 9일

[논문리뷰] Revisiting Modeling and Evaluation Approaches in Speech Emotion Recognition: Considering Subjectivity of Annotators and Ambiguity of Emotions

본 논문은 기존 음성 감정 인식(SER) 연구의 한계를 극복하고, 실제 환경에 더 적합한 SER 시스템을 구축하는 것을 목표로 합니다.

#Review #Speech Emotion Recognition #Annotator Subjectivity #Emotion Ambiguity #Soft Labels #Multi-label Classification #Evaluation Metrics #Loss Functions

2025년 10월 8일

[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.

#Review #LLM Bias Mitigation #Benchmark #Evaluation Metrics #Prompt Engineering #Fine-tuning #Bias-Free Score #Fairness

2025년 10월 2일