#Benchmark

321개의 포스트

[논문리뷰] MultiRef-Compass: Towards Comprehensive Evaluation of Multi-Reference-to-Audio-Video Generation

본 연구는 기존 비디오 생성 벤치마크들이 단일 참조(single-reference) 기반의 과업에 치중되어 있어, 실제 콘텐츠 제작 현장에서 요구되는 복합적인 다중 참조(multi-reference) 기반의 생성 능력을 충분히 평가하지 못한다는 문제에서 출발한다 .

#Review #MultiRef-Compass #MR2AV #Multimodal Generation #Reference Consistency #Instruction Following #Benchmark #MLLM-as-a-Judge

2026년 7월 16일

[논문리뷰] AdvancedMathBench: A Benchmark Suite for Advanced Mathematical Proof Generation and Verification

본 논문은 기존의 수학 벤치마크가 고등 수학 및 연구 수준의 증명 능력을 평가하기에는 범위와 입도가 부족하다는 문제를 해결하고자 합니다.

#Review #Advanced Mathematics #Proof Generation #Process Verification #LLM-as-Judge #Mathematical Reasoning #Benchmark #Automatic Verification Pipeline

2026년 7월 13일

[논문리뷰] RoboDojo: A Unified Sim-and-Real Benchmark for Comprehensive Evaluation of Generalist Robot Manipulation Policies

본 논문은 기존 로봇 매니퓰레이션 벤치마크가 지닌 평가의 단편성과 시뮬레이션-실세계 간의 괴리 문제를 해결하기 위해 RoboDojo를 제안한다.

#Review #Robot Manipulation #Generalist Robot Policy #Benchmark #Sim-to-Real #Embodied Intelligence #Evaluation Protocol

2026년 7월 8일

[논문리뷰] MuseBench: Benchmarking Intent-Level Audiovisual Arts Understanding in MLLMs

본 논문은 최신 MLLMs가 일반적인 인식 및 추론 태스크에서는 높은 성능을 보이나, 예술적 창작 의도를 해석하는 전문 영역에서는 여전히 유의미한 한계를 보인다는 문제의식에서 출발합니다.

#Review #Multimodal Large Language Models #Audiovisual Arts #Benchmark #Intent-Level Understanding #Video Essay #Interpretation Plurality

2026년 7월 7일

[논문리뷰] Speaker-Aware Temporal Aggregation Strategies on Segment Representations for Depression Detection in Dyadic Interaction: A Benchmark Study

본 논문은 기존의 우울증 감지 연구들이 단일 SSL Backbone과 임의로 선택된 단일 레이어에 의존함으로써 발생하는 편향성 문제를 해결하고자 한다.

#Review #Depression Detection #Temporal Aggregation #Self-Supervised Learning #Benchmark #Dyadic Interaction #SSL Backbones

2026년 7월 6일

[논문리뷰] DataComp-VLM: Improved Open Datasets for Vision-Language Models

본 논문은 현대의 Autoregressive VLM 학습에서 데이터 큐레이션 전략이 모델 성능을 결정짓는 핵심 요소임에도 불구하고, 이에 대한 표준화된 벤치마크가 부족하다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Data Curation #Benchmark #Instruction-Tuning #Data Mixing #Scaling Laws #Pretraining

2026년 7월 5일

[논문리뷰] When Search Agents Should Ask: DiscoBench for Clarification-Aware Deep Search

본 논문은 기존의 검색 에이전트 벤치마크가 사용자의 질의가 완전하고 명시적이라는 비현실적인 가정을 바탕으로 수행된다는 한계를 지적한다 .

#Review #Deep Search #Large Language Models #Ambiguity Detection #Interactive Clarification #Multi-hop Reasoning #Benchmark #Information Retrieval

2026년 7월 2일

[논문리뷰] EvoPolicyGym: Evaluating Autonomous Policy Evolution in Interactive Environments

본 논문은 현대의 자율 에이전트가 단순히 정적인 출력을 생성하는 것을 넘어, 환경 피드백을 통해 실행 가능한 정책을 반복적으로 개선해야 하는 도전 과제를 다룹니다. 기존 벤치마크는 최종 점수만을 평가하거나 복잡한 엔지니어링 작업과 섞여 있어, 에이전트의 '정책 진화' 능력을 독립적으로 측정하기 어렵다는 한계가 있습니다.

#Review #Autonomous Policy Evolution #Interactive Environments #Benchmark #Agentic Systems #Policy Optimization #Trajectory Analysis

2026년 7월 2일

[논문리뷰] AnyGroundBench: A Specialized-Domain Benchmark for Video Grounding in Vision-Language Models

본 논문은 기존의 STVG 평가 방식이 일반적인 일상 데이터에만 국한되어 있어, 실제 산업 현장이나 전문 분야에서 요구되는 고차원적 인식 능력을 측정하지 못한다는 문제를 제기합니다 .

#Review #Spatio-Temporal Video Grounding #Vision-Language Models #Domain Adaptation #In-Context Learning #Benchmark #Video Understanding

2026년 7월 2일

[논문리뷰] AgenticDataBench: A Comprehensive Benchmark for Data Agents

본 연구는 기존 데이터 에이전트 벤치마크가 복잡한 실제 비즈니스 시나리오를 충분히 반영하지 못하고, 세부적인 작업 수준의 성능 분석을 제공하지 못한다는 한계점을 해결하고자 합니다.

#Review #Data Agent #Benchmark #Skill Extraction #Data Science #LLM #Task Generation #Evaluation Pipeline

2026년 7월 2일

[논문리뷰] AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

본 논문은 정맥 인식 분야에서 자연 이미지용으로 개발된 기존 데이터 증강 기법들이 정맥 구조의 미세한 지형(Topology)과 질감을 훼손할 수 있다는 문제점을 해결하고자 합니다. 기존의 연구들은 특정 모델이나 데이터셋에 한정된 평가를 수행하여, 다양한 신경망 아키텍처와 증강 전략 간의 체계적인 비교가 부족했습니다 .

#Review #Vein Recognition #Data Augmentation #Biometrics #Reliability #Deep Learning #Benchmark #Robustness

2026년 7월 2일

[논문리뷰] MemSyco-Bench: Benchmarking Sycophancy in Agent Memory

본 논문은 에이전트 시스템에서 장기 기억이 오히려 에이전트의 판단력을 흐리는 Memory-induced Sycophancy 문제를 해결하고자 합니다. 기존의 기억 관련 벤치마크들은 주로 기억의 Retrieval 성공 여부만을 측정할 뿐, 검색된 기억이 이후의 추론 및 의사결정 과정에 미치는 부작용을 간과하고 있습니다.

#Review #LLM-based Agents #Long-term Memory #Sycophancy #Benchmark #Memory-induced Sycophancy #Post-retrieval Reasoning

2026년 7월 1일

[논문리뷰] RedVox: Safety and Fairness Gaps in Speech Models Across Languages

본 논문은 최신 음성 인식 모델들의 안전성 및 공정성 평가가 지나치게 영어 중심적이며, 자연스러운 실사용 환경이 아닌 합성 데이터에 치중되어 있다는 한계점을 지적합니다.

#Review #Speech Models #Safety #Fairness #Multilingual #Benchmark #Red Teaming #Multimodal

2026년 6월 30일

[논문리뷰] Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation

본 연구는 LLM 기반 에이전트가 현실 업무에서 반복적인 절차를 수행할 때 발생하는 Procedural Memory의 재사용성 문제를 해결하고자 한다. 기존 연구들은 로컬 환경에서의 단기 성능 향상에 집중하여, 서로 다른 태스크, 역할(Role), 모델 Backbone 간의 실질적인 전이 성능을 충분히 평가하지 못했다.

#Review #LLM Agents #Procedural Memory #Skill Transfer #Benchmark #Agent Evolution #Task Generalization

2026년 6월 30일

[논문리뷰] Trimming the Long-Tail of Visual World Modeling Evaluation

본 논문은 현대의 World Models가 물리적 원리를 진정으로 내재화했는지, 아니면 학습 데이터의 통계적 규칙성에 의존하는지에 대한 근본적인 의문을 제기합니다.

#Review #Visual World Modeling #Long-Tail Scenarios #Physical Reasoning #Affordance Generalization #Multimodal Generative Models #Benchmark

2026년 6월 29일

[논문리뷰] OSWorld2.0: Benchmarking Computer Use Agents on Long-Horizon Real-World Tasks

본 논문은 기존의 컴퓨터 사용 벤치마크들이 지나치게 단기적이고 단순한 작업 위주로 구성되어 있어, 실제 실무 환경에서의 복잡한 Long-Horizon 업무를 평가하기에 한계가 있다는 점을 지적한다.

#Review #Computer-Use Agents #Long-Horizon Tasks #Benchmark #Multimodal Agents #Reasoning #Task-Level Planning #Autonomous Agents

2026년 6월 29일

[논문리뷰] GUI vs. CLI: Execution Bottlenecks in Screen-Only and Skill-Mediated Computer-Use Agents

본 논문은 기존의 Computer-Use 에이전트 평가 방식이 GUI와 CLI라는 상호작용 모달리티(Modality)의 차이를 모델 성능, 작업 환경, 에이전트의 제어 능력과 혼동하고 있다는 점을 지적한다.

#Review #GUI Agents #CLI Agents #Computer-Use #Skill-Mediated #Execution Bottlenecks #Benchmark #Action Space #Visual Grounding

2026년 6월 25일

[논문리뷰] CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies

본 논문은 기존 LLM 에이전트 벤치마크가 단일 에이전트나 동질적인 환경에 국한되어, 현실적인 경제 시스템의 복잡성을 반영하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #Long-Horizon #Multi-Agent Economy #Benchmark #Supply Chain #Decision-making

2026년 6월 25일

[논문리뷰] EBench: Elemental Diagnosis of Generalist Mobile Manipulation Policies

본 논문은 기존의 로봇 조작 벤치마크들이 단일 성공률(Success Rate) 스칼라 값에 의존하여 모델의 진정한 역량을 가리고 있다는 점을 해결하고자 합니다. 현재의 Generalist Manipulation 모델들은 유사한 성공률을 보고하지만, 실제 배포 시 성능이 크게 달라지는 구조적 한계를 가지고 있습니다.

#Review #EBench #Generalist Mobile Manipulation #VLA (Vision-Language-Action)#Capability Profiling #Embodied AI #Benchmark #Generalization

2026년 6월 24일

[논문리뷰] NatureBench: Can Coding Agents Match the Published SOTA of Nature-Family Papers?

본 논문은 AI 코딩 에이전트가 단순한 논문 구현(reproduction)을 넘어, 실제 과학적 난제에 대해 기존 SOTA를 능가하는 독창적인 방법론을 발견(discovery)할 수 있는지 평가하는 것을 목표로 한다.

#Review #Coding Agents #NatureBench #NatureGym #AI for Science #Benchmark #SOTA-normalized #Autonomous Discovery

2026년 6월 23일

[논문리뷰] ChartWalker: Benchmarking the Cross-Chart RAG Task

본 논문은 기존의 Cross-Chart RAG 연구들이 가진 구조적 정보 부족과 논리적 추론 한계를 해결하고자 합니다.

#Review #Cross-Chart RAG #Knowledge Graph #Multimodal #Reasoning Paths #Benchmark #Agentic Retrieval

2026년 6월 23일

[논문리뷰] Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

본 논문은 현재의 Text-to-Image (T2I) 모델들이 진정한 인과적 추론 능력을 갖추었는지, 아니면 단순한 패턴 매칭에 불과한지를 검증하는 문제를 해결하고자 한다.

#Review #Counterfactual Reasoning #Text-to-Image Generation #Causal Understanding #Benchmark #Prior Resistance #Vision-Language Model

2026년 6월 23일

[논문리뷰] AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning

본 논문은 현대의 LLM 기반 에이전트가 기업 내부의 방대한 문서 아카이브에서 실질적인 지식 업무를 수행하는 데 필요한 Archive-grounded reasoning 능력을 평가하기 위해 Agora를 제안한다.

#Review #Agentic AI #Document Reasoning #Archive-Grounded #Benchmark #Multi-Hop QA #Workplace Automation

2026년 6월 23일

[논문리뷰] No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

본 연구는 LLM의 코드 생성 능력이 학습 데이터가 풍부한 High-Resource 언어에 편중되어, 신생 기업에서 사용하는 No-Resource 언어에 대한 지원이 전무하다는 점을 해결하고자 한다.

#Review #Large Language Models #Code Generation #No-Resource Languages #Benchmark #Fine-Tuning #Pre-training

2026년 6월 18일

[논문리뷰] JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

본 논문은 프로페셔널 게임 엔진 환경에서 프로젝트 레벨의 코드 프레임워크를 생성하고 평가하는 AI 기술의 부재를 해결하고자 한다 . 기존 연구들은 주로 단일 파일 생성이나 간단한 게임 로직에 국한되어 있으며, 게임의 복잡한 런타임 행동을 정량적으로 평가할 수 있는 방법론이 부족하였다.

#Review #Game Engine #Code Framework #Software Engineering #Benchmark #Dataset #Godot #Deterministic Evaluation

2026년 6월 18일

[논문리뷰] DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

본 연구는 기존 Distractor-Free Radiance Field 연구들이 대규모의 체계적인 데이터셋과 벤치마크의 부재로 인해 방법론의 강점과 한계를 파악하기 어렵다는 문제를 해결합니다.

#Review #Distractor-Free #Novel View Synthesis #Radiance Fields #3D Dataset #Benchmark #Diffusion-based Enhancement #DI2FIX

2026년 6월 18일

[논문리뷰] Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

본 논문은 현대의 LLM 에이전트가 단일 점수 기반의 정적 리더보드로는 충분히 평가될 수 없으며, 이로 인해 Rank Instability가 발생한다는 점을 지적합니다.

#Review #LLM Agents #Predictive Validity #Benchmark #Evaluation #Out-of-Distribution #MCP #Leaderboard

2026년 6월 18일

[논문리뷰] Physics-IQ Verified

본 논문은 기존 Physics-IQ benchmark가 물리적 이해도를 측정하는 데 있어 포함하고 있는 측정 오류(Measurement Error)와 평가 프로토콜의 한계를 해결하고자 한다.

#Review #Video Generative Models #Physical Reasoning #Benchmark #Evaluation #Ground Truth #Artifacts #Physics-IQ

2026년 6월 17일

[논문리뷰] MyPCBench: A Benchmark for Personally Intelligent Computer-Use Agents

본 논문은 기존의 Computer-Use 에이전트 벤치마크가 실사용 환경과 동떨어진 '개인성(Impersonality)' 결여 문제를 해결하고자 한다.

#Review #Computer-Use Agents #Personalization #Benchmark #Linux Desktop #Agent Harness #Cross-App Consistency

2026년 6월 17일

[논문리뷰] A Benchmark and Framework for Evaluating Next Action Predictions in Spreadsheets

본 논문은 스프레드시트 환경에서 부족한 자동 완성(auto-completion) 기능을 보완하기 위해 차세대 작업 예측을 위한 벤치마크와 평가 프레임워크를 제안합니다. 기존의 코드 자동 완성 연구와 달리, 스프레드시트는 공개적인 편집 기록(edit history) 데이터가 부족하고 작업 공간이 복잡하다는 한계가 있습니다.

#Review #Spreadsheet Automation #Next Action Prediction #Benchmark #Online Evaluation #Human-AI Collaboration #Code Completion

2026년 6월 17일

[논문리뷰] GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

본 논문은 현대의 Coding Agent가 자연어 명세(Specification)를 실제 실행 가능한 게임으로 변환하는 End-to-End 생성 능력을 엄밀하게 평가하고자 합니다.

#Review #Game Generation #Coding Agents #Game Engine #Godot #End-to-End Evaluation #Interactive Verification #Benchmark

2026년 6월 16일

[논문리뷰] ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

본 논문은 LLM이 영어 기반 논리 벤치마크에서는 우수한 성능을 보이지만, 중국어와 같이 언어적/실용적 변동성이 큰 환경에서도 이러한 논리적 추론 성능이 유지되는지 의문을 제기한다.

#Review #Logical Reasoning #Chinese Language Understanding #Robustness #Large Language Models #Benchmark #Surface Realization #Back-translation

2026년 6월 16일

[논문리뷰] Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

본 논문은 웹 에이전트 평가의 핵심 문제인 '최종 성공 여부(Terminal Success)에만 의존하는 방식'이 에이전트의 실패 원인을 규명하는 데 한계가 있다는 점을 지적한다. 기존의 결과 중심 평가는 긴 상호작용 과정에서 발생하는 질적으로 다른 실패 모드들을 하나로 압축하여, 구체적인 개선 방향을 제시하지 못한다 .

#Review #Web Agent #Process-Level Evaluation #Semantic MDP #Benchmark #Skill Diagnosis #Trajectory Analysis

2026년 6월 15일

[논문리뷰] MVEB: Massive Video Embedding Benchmark

기존 비디오 벤치마크는 단일 Task에 초점을 맞추어 모델의 일반 목적 비디오 표현 품질을 평가하기 어렵게 만들며, 이는 fragmented landscape를 초래합니다.

#Review #Video Embeddings #Benchmark #Multimodal Learning #Zero-Shot Classification #Retrieval #MTEB #Audio-Visual

2026년 6월 15일

[논문리뷰] P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning

본 논문은 기존의 3D 생성 벤치마크가 프로그램 기반의 파라메트릭 생성 능력을 종합적으로 평가하지 못한다는 한계를 해결하기 위해 P3D-Bench를 제안합니다 .

#Review #Parametric 3D Generation #MLLM #Benchmark #CAD #Structural Reasoning #Code Generation

2026년 6월 14일

[논문리뷰] Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

본 논문은 최신 LLM이 의학적 시험에서는 우수한 성적을 거두지만, 실제 의료 환경의 복잡하고 오염된 정보 속에서는 판단 능력이 취약하다는 문제를 해결하고자 한다. 기존의 의료 벤치마크들은 주로 깨끗한(clean) 입력을 바탕으로 지식과 추론 능력을 평가하여 실제 배포 환경에서의 안정성을 과대평가하는 경향이 있다 .

#Review #Epistemic Resilience #LLM Evaluation #Medical Misinformation #Robustness #Benchmark #Medical Reasoning

2026년 6월 14일

[논문리뷰] MBench: A Comprehensive Benchmark on Memory Capability for Video World Models

본 논문은 기존의 영상 생성 평가 벤치마크들이 영상 품질, 모션 일관성, 텍스트 정렬에만 집중할 뿐, 세계 모델의 핵심인 장기적 메모리(Long-term Memory) 능력을 과소평가하고 있다는 문제의식에서 출발한다 .

#Review #Video World Models #Long-term Memory #Benchmark #Entity Consistency #Environment Consistency #Causal Consistency

2026년 6월 14일

[논문리뷰] FVSpec: Real-World Property-Based Tests as Lean Challenges

본 논문은 AI 모델 및 에이전트의 실제 소프트웨어 형식 검증(formal software verification) 능력을 평가하기 위한 벤치마크 부족 문제를 해결하고자 합니다.

#Review #Formal Verification #Property-Based Testing #Lean 4 #LLM Pipeline #Benchmark #AI Safety #Structural Faithfulness

2026년 6월 14일

[논문리뷰] OmniGameArena: A Unified UE5 Benchmark for VLM Game Agents with Improvement Dynamics

본 논문은 기존 VLM Agent 벤치마크가 단일 시도(First-attempt) 점수만을 보고하고, Solo 플레이 위주로 구성되어 있어 에이전트의 학습 및 개선 능력을 측정하지 못한다는 문제를 지적한다.

#Review #VLM Agents #Benchmark #Unreal Engine 5 #Improvement Dynamics #Agentic Reflection #Cold-start #Generalization

2026년 6월 8일

[논문리뷰] CoVEBench: Can Video Editing Models Handle Complex Instructions?

본 논문은 기존 비디오 편집 벤치마크들이 단순하고 고립된 편집 작업에만 초점을 맞추어, 실제 사용자의 복잡한 편집 요구사항을 반영하지 못하는 한계를 해결하고자 합니다 .

#Review #Compositional Video Editing #Instruction-guided Editing #Benchmark #Instruction Compliance #Video Fidelity #MLLM-based Evaluation #Fine-grained Diagnostics

2026년 6월 8일

[논문리뷰] WorldBench: A Challenging and Visually Diverse Multimodal Reasoning Benchmark

본 논문은 기존 멀티모달 벤치마크들이 모델의 실제 추론 능력을 충분히 측정하지 못하는 한계점을 극복하기 위해 WorldBench를 제안한다. 많은 기존 벤치마크가 특정 도메인에 편향되어 있거나 시각적 다양성이 부족하여, VLM의 실제 문제 해결 능력을 과대평가하게 만드는 경향이 있다.

#Review #Multimodal Reasoning #Benchmark #Vision-Language Model #Visual Diversity #Inference #Evaluation #LLM

2026년 6월 7일

[논문리뷰] When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents

본 논문은 기존의 LLM 에이전트 벤치마크들이 이상적인 'Happy Path' 환경만을 상정하여, 현실의 불안정한 도구 실행 및 오류 상황을 제대로 평가하지 못하는 한계를 지적한다.

#Review #LLM Agents #Tool-Integrated Reasoning #Fault-Tolerance #Dynamic Replanning #Anomaly Recovery #Benchmark #DAG-based Task Generation

2026년 6월 7일

[논문리뷰] MMAE: A Massive Multitask Audio Editing Benchmark

본 연구는 instruction-based audio editing 분야의 급격한 발전에도 불구하고, 이를 체계적으로 평가할 수 있는 통합적인 인프라가 부재하다는 문제점을 해결하고자 합니다.

#Review #Audio Editing #Benchmark #Multitask Learning #Rubric-based Evaluation #Instruction Following #Consistency

2026년 6월 7일

[논문리뷰] GENEB: Why Genomic Models Are Hard to Compare

본 논문은 현재 유전체 머신러닝 분야가 파편화된 벤치마크와 상호 호환되지 않는 평가 프로토콜로 인해 모델 간의 정당한 비교가 불가능한 문제에 직면해 있다고 지적한다 .

#Review #Genomic Foundation Models #Benchmark #Probing #Cross-Model Evaluation #Architecture #Pretraining #Genomics

2026년 6월 7일

[논문리뷰] VideoKR: Towards Knowledge- and Reasoning-Intensive Video Understanding

본 논문은 현대의 멀티모달 모델들이 단순한 시각적 인식을 넘어 전문적인 도메인 지식과 다단계 추론이 필요한 비디오 이해 태스크에서 한계를 보인다는 점을 지적한다.

#Review #Video Understanding #Knowledge-Intensive Reasoning #Training Corpus #CoT #Benchmark #Skill-Oriented #Reinforcement Learning

2026년 6월 4일

[논문리뷰] Towards One-to-Many Temporal Grounding

본 연구는 기존 Temporal Grounding 연구들이 주로 단일 세그먼트 검색(One-to-One)에 치중되어 있어, 실세계의 반복적인 이벤트 구조를 다루지 못한다는 한계를 해결합니다.

#Review #Temporal Grounding #MLLM #One-to-Many #Reinforcement Learning #Event Cardinality #Benchmark

2026년 6월 4일

[논문리뷰] Is This Edit Correct? A Multi-Dimensional Benchmark for Reasoning-Aware Image Editing

본 논문은 현재의 확산 모델(Diffusion-based models) 기반 이미지 편집 시스템이 표면적인 지시사항 수행(Surface-level instruction following)에만 치중하여 논리적 일관성이 결여된 결과물을 생성하는 문제를 해결하고자 합니다 .

#Review #Image Editing #Reasoning-aware #Benchmark #Diffusion Models #Multi-modal LLMs #Logic Consistency #EditRefine

2026년 6월 4일

[논문리뷰] ForeSci: Evaluating LLM Agents for Forward-Looking AI Research Judgment

본 논문은 자율 연구 에이전트가 기술의 미래 발전 방향을 예측하는 의사결정 영역에서 얼마나 타당한 판단을 내릴 수 있는지에 대한 근본적인 의문을 제기합니다.

#Review #LLM Agents #Foresight Evaluation #Scientific Judgment #Temporal Integrity #Benchmark #Research Forecasting

2026년 6월 4일

[논문리뷰] Dream.exe: Can Video Generation Models Dream Executable Robot Manipulation?

본 논문은 비디오 생성 모델이 단순히 시각적으로 그럴듯한 영상을 만드는 수준을 넘어, 실제 물리 법칙을 내재화한 'World Model'로서의 기능을 수행하는지 검증하고자 합니다.

#Review #Video Generation Models #Robotic Manipulation #Physical Executability #Benchmark #Sim-to-Real #World Models

2026년 6월 4일

[논문리뷰] SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

본 논문은 VLM이 단순한 공간 관찰을 넘어 실제 3D 환경에서 행동하고 그 결과를 관리할 수 있는지 평가하기 위해 SpatialAct를 제안한다. 기존의 공간 추론 벤치마크들은 대부분 정적인 이미지나 비디오를 대상으로 모델의 이해도만을 측정하며, 모델의 출력이 환경을 변화시키는 상호작용은 고려하지 않았다 .

#Review #VLM Agents #3D Spatial Reasoning #Action-Conditioned #Interactive Refinement #Benchmark #Simulator-Grounded

2026년 6월 3일

[논문리뷰] PaintBench: Deterministic Evaluation of Precise Visual Editing

본 논문은 최신 멀티모달 모델들이 일반적인 시각 편집에는 능숙하지만, 정확한 단일 결과가 요구되는 정밀 편집 작업(Precise Visual Editing) 수행에는 한계를 보인다는 문제 의식에서 출발합니다.

#Review #Multimodal Models #Image Editing #Benchmark #Deterministic Evaluation #Pixel-level #Procedural Generation

2026년 6월 3일

[논문리뷰] M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

본 논문은 현존하는 많은 멀티모달 모델이 짧은 컨텍스트 내의 정보 이해에는 능숙하지만, 복잡한 비디오 시퀀스에서 장기적인 기억을 유지하는 데는 심각한 한계가 있다는 점을 지적합니다. 기존 벤치마크들은 주로 단기적 정보 인식에 치중되어 있어, 인간처럼 긴 시간 동안 사건을 축적하고 재구성하는 능력을 측정하기 어렵습니다.

#Review #Multi-Modal Memory #Video Understanding #Benchmark #Cognitive Science #Long-term Memory

2026년 6월 3일

[논문리뷰] Ψ-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

본 논문은 현대의 Personalized LLM Agent가 사용자의 선호에 맞춘 수동적 응답자(Passive Responder)에 머물러 있다는 한계를 지적하며, 보다 능동적인 설득 및 가이드 능력을 갖춘 'Proactive Personalization'의 필요성을 제기합니다.

#Review #LLM #Personalization #Persuasive Dialogue #Persona-Sensitive Influencing #Proactive Agent #Benchmark

2026년 6월 2일

[논문리뷰] Benchmarking Visual State Tracking in Multimodal Video Understanding

본 논문은 최신 Multimodal Large Language Models (MLLMs)가 비디오의 지속적인 역동성을 이해하고 상태를 추적하는 능력, 즉 Visual State Tracking 능력이 결여되어 있다는 점을 지적한다 .

#Review #Multimodal Large Language Models #Video Understanding #Visual State Tracking #Benchmark #Visual Perception #Agentic Frameworks

2026년 6월 2일

[논문리뷰] AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

본 논문은 기존 의료 AI 벤치마크가 End-to-End 연구 과정의 복잡성을 간과하고 최종 결과물 평가에만 치중하여, 에이전트의 행동 특성이나 실패 원인을 파악하기 어렵다는 문제점을 해결하고자 합니다 .

#Review #Medical-AI #Autonomous Agents #Benchmark #Research Automation #Workflow-Aware Evaluation #LLM

2026년 6월 2일

[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models

본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.

#Review #Vision Foundation Models #Semantic Correspondence #Benchmark #Object-Centric Representation #Transfer Learning #Feature Extraction

2026년 6월 1일

[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes

본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Embodied AI #Robustness #Physical Visual Stress #Benchmark #Inverse Graphics #Test-Time Rectification

2026년 6월 1일

[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft

본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .

#Review #MLLM Agents #Open-World Exploration #Minecraft #Embodied AI #Benchmark #Task Synthesis #Multi-Agent Workflow

2026년 6월 1일

[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers

본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.

#Review #VQA #Japanese #Document AI #Multimodal LLMs #Chart Understanding #Table Reasoning #Benchmark

2026년 6월 1일

[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code

본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #3D Modeling #Procedural Generation #Vision-Language Models #Agentic Workflow #Benchmark #Human-Preference #Blender

2026년 6월 1일

[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .

#Review #Agentic Data Analysis #Long-Horizon #State Management #Benchmark #LLM Agents #State-Evolution

2026년 5월 31일

[논문리뷰] Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

본 논문은 기존의 MTSF 연구가 개별 모델을 복잡한 'Holistic Model'로 간주하여 평가함에 따라, 내부 핵심 메커니즘의 개별적인 성능 기여도가 불분명하다는 문제를 제기합니다 .

#Review #Component-level Analysis #Benchmark #Time Series Forecasting #MTSF #AutoML #Zero-shot #Performance Corpus

2026년 5월 31일

[논문리뷰] OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

본 논문은 오디오-비주얼 스트리밍 환경에서 Omnimodal Large Language Models가 실시간으로 상호작용하는 능력을 평가하는 데 있어 기존 벤치마크들의 한계를 해결하고자 합니다.

#Review #Omnimodal LLM #Streaming Interaction #Benchmark #Real-time AI #Full-duplex #Interaction-Aware Scoring

2026년 5월 28일

[논문리뷰] AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

기존 LLM 에이전트 연구들은 주로 단일 태스크 환경과 즉각적인 도구 응답을 가정하여 평가를 수행해왔습니다. 그러나 실제 환경에서는 도구 호출 시 지연 시간(latency)이 발생하며, 여러 태스크를 동시에 처리해야 하는 상황이 빈번합니다.

#Review #Asynchronous Tool Calling #Multi-task Scenarios #LLM Agent #Temporal Coordination #Latency #Benchmark

2026년 5월 28일

[논문리뷰] VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild

본 논문은 LLM 기반 에이전트가 기존 벤치마크에서는 높은 성능을 보임에도 불구하고, 실사용 환경에서는 사용자 만족도가 낮은 'Evaluation–Experience Gap' 문제를 해결하고자 한다.

#Review #VibeSearch #Proactive Search #Large Language Models #Agent Harness #Knowledge Graph #Benchmark

2026년 5월 27일

[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?

본 논문은 현재 Spatial Foundation Models (SFMs)이 standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인…

#Review #Spatial Foundation Models #3D Reconstruction #Benchmark #Domain Generalization #Input Density #Embodied AI

2026년 5월 26일

[논문리뷰] LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV

본 논문은 기존 Audio-Visual Generation 벤치마크가 Minute-Scale Content의 평가 요구사항을 충족하지 못하는 문제를 해결하고자 한다.

#Review #Audio-Visual Generation #Long Video Generation #Evaluation #Benchmark #T2AV #I2AV #V2AV #MLLM-assisted assessment

2026년 5월 26일

[논문리뷰] WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation

최근 Interactive World Models의 발전에도 불구하고, 기존의 평가 방식은 단편적이며 체계적인 평가를 위한 통합된 표준이 부재하다.

#Review #Interactive World Models #Video Generation #Benchmark #Multi-turn Interaction #Evaluation Metrics

2026년 5월 25일

[논문리뷰] Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World

현재 Large Language Model(LLM) 기반 agent 시스템은 user의 digital world 중 매우 제한적인 부분에만 접근하여 context-sensitive reasoning과 효과적인 assistance 제공에 심각한 한계를 보입니다.

#Review #Personal Assistant Agents #Benchmark #Context-Aware Reasoning #Multi-device Interaction #Proactive Assistance #Long-horizon Event Streams #LLM Agents #Digital World

2026년 5월 25일

[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows

본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.

#Review #Proactive Personal Assistant Agents #Long-Horizon Workflows #Hidden Intents #Benchmark #Task Completion #Agentic Workflow

2026년 5월 21일

[논문리뷰] TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation

본 논문은 기존의 대중교통 경로 계획 시스템이 복잡한 맵 인프라와 외부 라우팅 엔진에 과도하게 의존하고 있다는 문제점을 해결하고자 한다. 일반적인 LLM은 경로 계획의 기본이 되는 위상 구조를 제대로 이해하지 못해 환각(hallucination)을 일으키거나 연결이 끊긴 경로를 생성하는 한계를 보인다.

#Review #TransitLM #Route Generation #Map-Free #Large Language Model #Continual Pre-Training #Urban Mobility #Benchmark

2026년 5월 21일

[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.

#Review #TerminalWorld #Autonomous Agents #Benchmark #CLI #Data Engine #Reverse-Engineering #Docker

2026년 5월 21일

[논문리뷰] OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding

본 논문은 Omni-modal Large Language Models(MLLMs)의 발전에도 불구하고, 실제 환경에서의 Proactive 스트리밍 이해 능력을 정밀하게 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .

#Review #Omni-proactive streaming #Video understanding #Benchmark #Multimodal LLMs #Audio-visual perception #Long-horizon evaluation

2026년 5월 21일

[논문리뷰] LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening

본 논문은 LLM의 자연어 논리 추론 능력을 평가하는 기존 벤치마크들이 겪고 있는 한계를 극복하기 위해 LLMEval-Logic을 제안한다 .

#Review #LLM #Logical Reasoning #Benchmark #Z3 #Adversarial Hardening #NL-to-FL

2026년 5월 20일

[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing

기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.

#Review #GUI Agents #Media Post-Production #Benchmark #Multimodal #Long-Horizon #Grounding #Vibe Cutting

2026년 5월 20일

[논문리뷰] Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction

본 논문은 현대의 MLLM이 실시간 환경에서의 상호작용 능력을 평가할 수 있는 표준화된 벤치마크와 평가 방법론이 부족하다는 문제점을 지적합니다.

#Review #Multimodal Large Language Models #Real-time Duplex Interaction #Streaming Video Understanding #Benchmark #Proactive Interaction

2026년 5월 19일

[논문리뷰] MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation

본 논문은 현대의 영상 생성 기술이 단일 샷(single-shot)에서 다중 샷(multi-shot) 이야기 구조로 진화함에 따라 발생하는 모델 평가의 한계를 극복하고자 한다.

#Review #Multi-Shot Audio-Video Generation #Benchmark #Evaluation Framework #Adaptive Hybrid Evaluation #Cinematic Language

2026년 5월 19일

[논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents

본 논문은 실세계의 복잡한 전문 워크플로우를 수행하는 Agent의 능력과 이를 평가하는 기존 벤치마크 사이의 격차를 해소하고자 합니다.

#Review #Agentic AI #Omni-modal #Tool-using Agents #Model Context Protocol #Closed-loop Verification #Benchmark

2026년 5월 18일

[논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

본 논문은 현대 의료 운영 시스템의 핵심 워크플로우인 사전 승인(Prior Authorization), 이용 관리(Utilization Management), 케어 관리(Care Management)를 자동화하려는 AI 에이전트들의 실질적인 한계를 규명합니다.

#Review #Healthcare AI #AI Agents #Policy-Rich Workflows #Long-Horizon #Benchmark #Managed-Care Operations #Model Context Protocol

2026년 5월 18일

[논문리뷰] MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models

본 연구는 LVLM과 Memory-Augmented Agents 간의 기억 능력을 체계적으로 비교할 수 있는 표준화된 벤치마크의 부재를 해결합니다. 기존의 장기 문맥 벤치마크는 주로 텍스트 기반이거나 시각적 정보의 필요성이 낮아 진정한 다중 모달 추론 능력을 검증하지 못한다는 한계가 있습니다.

#Review #Multimodal Memory #Large Vision-Language Models #Long-Context #Benchmark #Retrieval-Augmented Generation #Multi-Session Reasoning

2026년 5월 14일

[논문리뷰] ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes

본 논문은 현대의 멀티모달 모델들이 이미지를 코드로 변환하는 능력을 평가할 때 발생하는 벤치마크 오염과 고정된 데이터셋의 한계를 해결하기 위해 ShapeCodeBench를 제안합니다. 기존 연구들은 결정론적 실행이나 정밀한 난이도 제어가 부족하여 모델의 실패 원인을 명확히 진단하기 어렵다는 문제가 있었습니다.

#Review #Perception-to-Program Reconstruction #Benchmark #Synthetic Data #Renewable Evaluation #Multimodal Models #DSL

2026년 5월 13일

[논문리뷰] PresentAgent-2: Towards Generalist Multimodal Presentation Agents

본 논문은 기존의 문서 기반 프레젠테이션 자동화 도구가 가지는 제약을 극복하고, 사용자의 오픈 엔드 쿼리로부터 직접적인 프레젠테이션 영상을 생성하는 시스템을 목표로 한다.

#Review #Multimodal Agent #Presentation Generation #Deep Research #Interactive Delivery #Dynamic Media #Benchmark

2026년 5월 13일

[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.

#Review #Image Editing #Reward Modeling #Benchmark #Multimodal Large Language Models #Reinforcement Learning #Visual Reasoning

2026년 5월 13일

[논문리뷰] Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

본 연구는 autonomous agents의 가치 체계가 기반이 되는 LLM의 가치와는 본질적으로 다르며, 이를 체계적으로 평가할 수 있는 도구가 부재하다는 문제 의식에서 출발합니다. 기존의 ValueBench나 ValueCompass와 같은 연구들은 주로 정적인 텍스트 생성 모델의 가치 평가에만 국한되어 있습니다.

#Review #Autonomous Agents #Value Alignment #Benchmark #Agentic Modality #Harness Alignment #Skill Steering

2026년 5월 12일

[논문리뷰] Beyond Retrieval: A Multitask Benchmark and Model for Code Search

코드 검색 벤치마크 분야는 데이터 오염, 평가 지표의 단일성, 그리고 실제 배포 환경과 괴리된 평가 방식으로 인해 정교한 모델 성능 측정이 어렵습니다.

#Review #Code Search #Benchmark #Reranker #Data Contamination #Retrieval-Augmented Generation #Code LLM

2026년 5월 10일

[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다.

#Review #AI Agents #Workspace Learning #Benchmark #File Dependency #Large-Scale #Autonomous Agent #Task-File-Driven

2026년 5월 5일

[논문리뷰] Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

본 연구는 LLM 기반 Agent 생태계에서 Skill이 범람함에도 불구하고, 개별 개발자가 특정 목적 위주로 설계하여 기능적 파편화(Fragmentation)와 커버리지 부족 문제를 겪고 있는 현실을 해결하고자 합니다 .

#Review #Large Language Model #Agent #Skill Self-Evolution #GRPO #Benchmark #Automation

2026년 5월 5일

[논문리뷰] PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination

본 논문은 기존 특허 관련 연구가 특허 심사를 단순한 이진 분류(Acceptance Prediction)나 정적인 정보 추출 문제로만 취급하여 실제 현장의 반복적이고 상호작용적인 심사 과정을 반영하지 못한다는 한계를 해결하고자 한다.

#Review #Patent Examination #Office Action Generation #Rebuttal Generation #Large Language Models #Legal Reasoning #Benchmark

2026년 5월 5일

[논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue

본 논문은 기존의 UAV SAR 연구들이 전통적인 비전 및 경로 계획 방식에 국한되어 있어, 복잡한 환경에서의 자율적 의사결정 능력을 평가할 통합된 벤치마크가 부족하다는 점을 지적합니다.

#Review #Embodied AI #Search and Rescue (SAR)#UAV #Multimodal Large Language Models (MLLMs)#Simulation Platform #Benchmark

2026년 5월 5일

[논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework

본 논문은 대규모 데이터셋과 통합된 벤치마크의 부재로 인해 interactive world model의 물리적 상호작용 능력을 객관적으로 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Interactive World Models #Benchmark #Action Generation Framework #Embodied Intelligence #Trajectory Following #Memory Ability

2026년 5월 5일

[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments

본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.

#Review #LLM Agents #EHR #Benchmark #FHIR #Clinical Workflows #Agentic Evaluation #Long-horizon Tasks

2026년 5월 4일

[논문리뷰] WorldMark: A Unified Benchmark Suite for Interactive Video World Models

저자들은 Interactive I2V 모델들을 위한 최초의 표준화된 벤치마크인 WorldMark를 제안합니다. 이 프레임워크의 핵심은 모델별 제어 방식을 WASD 표준 액션으로 변환하는 Unified Action-mapping Adapter를 통해 6개 주요 모델을 동일 조건에서 비교하는 것입니다.

#Review #Interactive World Models #Image-to-Video #Benchmark #Unified Control Interface #World Consistency #Cross-Model Evaluation

2026년 4월 23일

[논문리뷰] Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts

본 논문은 EEG foundation models가 실제 임상 환경에서 직면하는 심각한 Distribution Shift 문제를 해결하고자 합니다.

#Review #Test-Time Adaptation #EEG Foundation Models #Distribution Shift #Benchmark #NeuroAdapt-Bench #T3A

2026년 4월 23일

[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective

본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.

#Review #Generative Spatial Intelligence #Multimodal Large Language Models #Image Editing #Benchmark #Sim-to-Real Transfer

2026년 4월 22일

[논문리뷰] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

본 연구는 29개의 기존 데이터셋에서 추출한 1,804개의 샘플을 바탕으로 9가지 유형의 편향을 분석하는 MM-JudgeBias 벤치마크를 구축하였다. 제안된 프레임워크는 각 샘플에 대해 편향되지 않은(unbiased) triplet과 편향을 주입한(biased) triplet을 생성하여 평가 결과의 차이를 비교한다.

#Review #Multimodal Large Language Models #MLLM-as-a-Judge #Compositional Bias #Benchmark #Bias-Deviation #Bias-Conformity

2026년 4월 21일

[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.

#Review #Information Retrieval #Code-Switching #Benchmark #Embedding Models #Robustness #Late-Interaction #Lexicon-Based Adaptation

2026년 4월 21일

[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.

#Review #Agentic Workflow #Benchmark #Large Language Models #Visual Programming #Executable Workflow #Task Automation

2026년 4월 21일

[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.

#Review #Video Editing #Reward Model #Benchmark #Instruction Following #Human Alignment

2026년 4월 19일

[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.

#Review #AI Agents #Language World Models #Professional Tasks #Environmental Robustness #Fault Injection #Benchmark

2026년 4월 15일

[논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

본 연구는 Multimodal Large Language Model(MLLM) 기반 게임 에이전트의 체계적인 평가를 가로막는 표준화된 인터페이스의 부재와 검증 방식의 한계를 극복하기 위해 수행되었습니다.

#Review #Multimodal Large Language Model #Game Agent #Benchmark #Standardized Evaluation #Computer-Use Agent #Semantic Action Parsing #Outcome-based Evaluation

2026년 4월 15일

[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces

본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.

#Review #Large Language Models #User Simulation #Human Behavior Modeling #Long-horizon #Cross-scenario #Benchmark

2026년 4월 9일

[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models

본 논문은 LLM 에이전트의 기억 능력을 평가하는 기존 벤치마크들이 '명시적 기억(Explicit memory)'의 회상 능력에만 편중되어 있다는 점을 지적한다.

#Review #Implicit Memory #LLM Agents #Procedural Memory #Priming #Classical Conditioning #Benchmark #Behavioral Adaptation

2026년 4월 9일

[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules

본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.

#Review #Deontic Reasoning #LLM #Symbolic Computation #Prolog #Benchmark #High-stakes #Rule-based Reasoning

2026년 4월 8일

[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.

#Review #Video Understanding #Multimodal Large Language Models #Benchmark #Reasoning Coherence #Capability Consistency #Evaluation Hierarchy #Non-linear Scoring

2026년 4월 7일

[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.

#Review #Autonomous Agents #Benchmark #Trajectory-aware Grading #Safety Evaluation #Robustness Testing #Multimodal Perception

2026년 4월 7일

[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing

본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .

#Review #Image Spatial Editing #Benchmark #Dataset #Geometry-Aware Evaluation #Camera Manipulation #Object Manipulation #Multimodal Large Models

2026년 4월 6일

[논문리뷰] FileGram: Grounding Agent Personalization in File-System Behavioral Traces

본 논문은 AI 에이전트가 개인화된 파일 시스템 환경에서 사용자와 원활히 협업하기 위해 필요한 행동 적응 능력의 부재 문제를 해결합니다. 기존 연구들은 주로 대화 기반의 요약에 의존하거나, 고립된 환경 내의 GUI 성공 여부만을 평가함으로써 사용자의 장기적인 행동 패턴을 파악하는 데 한계를 보입니다 .

#Review #Agent Personalization #File-System Behavioral Traces #Memory Framework #Multimodal Grounding #Benchmark

2026년 4월 6일

[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments

저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.

#Review #AI Agents #Benchmark #Information Environments #Multi-source Reasoning #Belief Revision #Implicit Personalization

2026년 4월 6일

[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents

저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.

#Review #Computer-Use Agents #Agent Safety #Benchmark #Harmful Behavior #Trajectory-level Evaluation #Multi-step Reasoning

2026년 4월 5일

[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification

본 논문은 현재의 Video MLLM 평가 방식이 답변의 정성적 정확도에만 치중하여 실제적인 시공간적 추론 역량을 제대로 측정하지 못한다는 문제를 지적한다. 기존 벤치마크들은 고득점을 기록하지만, 모델이 정답을 도출하기 위해 필요한 핵심적인 시각적 증거를 정확하게 탐색하고 활용하는지 검증하지 못한다 .

#Review #Video MLLM #Spatio-Temporal Grounding #Benchmark #Long-Video Understanding #Evidence Verification #Atomic Ability

2026년 4월 2일

[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.

#Review #Multilingual #Document Parsing #Benchmark #Photographed Documents #VLM #OCR

2026년 4월 2일

[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .

#Review #Academic Illustration #Visual-Logical Consistency #Benchmark #VQA #Test-Time Scaling #Multimodal Evaluation

2026년 4월 2일

[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.

#Review #Time Series Forecasting #Benchmark #TSF Regime #Foundation Models #Deep Learning #Data Scaling #Forecastability

2026년 4월 1일

[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가

Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가

#SGLang #NPU #Ascend #Ring-SP #Benchmark

2026년 4월 1일

[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가

SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.

#Ultralytics #YOLO26 #SAM-2 #Benchmark #Documentation

2026년 3월 31일

[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신

SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.

#Ultralytics #YOLO26 #SAM #Benchmark #Segmentation

2026년 3월 31일

[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

LLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.

#Review #Large Language Models #Chain-of-Thought #Monitorability #Benchmark #AI Safety #Stress-Test #Faithfulness

2026년 3월 31일

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .

#Review #Image Generation #Image Editing #Benchmark #Human Evaluation #Explainable AI #Multimodal Learning

2026년 3월 30일

[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing

최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.

#Review #Image Editing #Benchmark #Visual Consistency #Pairwise Evaluation #Human-Aligned #VLM-as-a-Judge

2026년 3월 30일

[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가

다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.

#Ray #Python #LLM #Benchmark #Performance #Concurrency

2026년 3월 30일

[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가

SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.

#SGLang #CI #Benchmark #GB300 #Blackwell #NeMo Skills #VLM

2026년 3월 29일

[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

최근 multi-reference image generation 시스템은 하나의 이미지 내에서 여러 entity를 세밀하게 제어하는 기능에 대한 기대를 높이고 있다.

#Review #Multi-subject Generation #Attribute Misbinding #Image Generation #Benchmark #Evaluation Protocol #Deep Learning #Computer Vision

2026년 3월 24일

[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축

서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다

#Gradio #Profiling #Benchmark #Observability

2026년 3월 24일

[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models

본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.

#Review #MLLM #Benchmark #Proactiveness #Reinforcement Learning #Multimodal Reasoning #Human-AI Interaction

2026년 3월 22일

[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합

ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.

#Axolotl #ScatterMoE #LoRA #Triton #MoE #Benchmark #GPU #Performance

2026년 3월 19일

[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

최근 MLLMs는 External Tools와의 통합을 통해 Agentic Problem Solvers로 발전하고 있으나, 복잡한 Visual Tasks를 위해 다양한 도구를 정확하게 실행하고 효과적으로 조합하는 데 지속적인 병목 현상(persistent bottleneck)을 겪고 있습니다.

#Review #Multimodal Large Language Models #Visual Tool Chaining #Agentic Models #Benchmark #OpenCV #Compositional Reasoning #Tool-use Evaluation

2026년 3월 19일

[논문리뷰] Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Multimodal Large Language Models (MLLMs)는 자연스러운 장면 해석에서 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 Discrete Symbols 처리 능력은 여전히 중요한 미해결 과제로 남아 있습니다.

#Review #Multimodal Large Language Models (MLLMs)#Discrete Symbols #Cognitive Mismatch #Symbol Understanding #Benchmark #Recognition-Reasoning Inversion #Human Cognition

2026년 3월 19일

[논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Large Language Models (LLMs)는 User Preferences를 Persistent Memory에 저장하여 여러 Interaction에서 Personalization을 지원하고 있습니다.

#Review #Large Language Models #Personalization #Persistent Memory #Context-Awareness #Preference Selectivity #Benchmark #Misapplication Rate #Appropriate Application Rate

2026년 3월 18일

[논문리뷰] SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

기존의 OLM Benchmark들은 주로 static, accuracy-centric 한 이해(understanding) Task에 초점을 맞추고 있어, 자연스러운 대화에서 Dynamic한 Cues를 탐색하는 Social Interactivity의 핵심 역량을 충분히 평가하지 못하고 있습니다.

#Review #Omni-modal LLMs #Social Interactivity #Benchmark #Speaker Identification #Turn-taking #Interruption Generation #Audio-Visual Integration

2026년 3월 17일

[논문리뷰] AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents

LLMs가 tool-using agent로 발전하면서 외부 환경과 상호작용하는 능력은 크게 향상되었지만, long-horizon 상호작용에서는 여전히 취약합니다.

#Review #Large language models #Process reward models #Tool-using agents #Step-level evaluation #Agent trajectories #Benchmark

2026년 3월 17일

[논문리뷰] Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

Multimodal Agent는 복잡한 문서 기반 워크플로우를 자동화하는 유망한 방향을 제시하지만, 이러한 Agent가 진정한 Strategic Reasoning 을 보여주는지, 아니면 단지 Stochastic Trial-and-error Search 에 의존하는지에 대한 근본적인 의문이 존재했습니다.

#Review #Multimodal Agents #Document QA #Agentic Reasoning #RAG #Benchmark #PDFs #Effort Calibration

2026년 3월 12일

[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs

이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning #Code-Grounded Perception #Image-to-Code Translation #Data Generation #Benchmark #Reinforcement Learning #Matplotlib

2026년 3월 11일

[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Vision-Language Models #Comparative Reasoning #Subtle Differences #Benchmark #Multi-modal AI #Image Comparison #VQA #Fine-grained Analysis

2026년 3월 10일

[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.

#Review #Spatial Intelligence #Vision-Language Models #Sports Analytics #3D Reconstruction #Dataset #Benchmark #Racket Sports #Human-Centric AI

2026년 3월 10일

[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.

#Review #Large Language Models (LLMs)#Code Generation #HTML #Interactive Applications #Benchmark #MINIAPPBENCH #Agentic Evaluation #MINIAPPEVAL #Real-World Principles #Human-AI Interaction

2026년 3월 10일

[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-Following

현재 Speech Large Language Models (SLLMs) 평가 시 주로 사용되는 텍스트 프롬프트의 한계를 극복하고, 현실적인 음성 기반 명령어 환경 에서 SLLM의 성능을 평가할 수 있는 데이터셋을 구축하는 것이 목표입니다.

#Review #Speech Language Models #Instruction Following #Multilingual Dataset #Spoken Prompts #Benchmark #SLLM Evaluation #Prompt Diversity

2026년 3월 10일

[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

현재 명시적 지시에만 반응하는 GUI 에이전트 의 한계를 극복하고, 사용자의 암묵적인 의도를 연속적인 시각 입력(스크린샷)으로부터 예측 하여 시기적절한 추천을 제공하는 능동형(Proactive) AI 비서 를 개발하는 것을 목표로 합니다.

#Review #Proactive Agents #GUI Automation #Intent Recommendation #Multimodal LLMs #Benchmark #Memory-aware Framework #Human-Computer Interaction

2026년 3월 9일

[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.

#Review #Large Language Models (LLMs)#Story Generation #Narrative Consistency #Benchmark #Automated Evaluation #Error Analysis #Long-Form Text Generation #Consistency Error Density (CED)

2026년 3월 9일

[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.

#Review #Robotics #Memory #Benchmark #Manipulation #Vision-Language-Action Models #Temporal Memory #Spatial Memory #Procedural Memory

2026년 3월 8일

[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Agents #Visual Reasoning #Tool Use #Benchmark #Long-Horizon Tasks #Realistic Scenarios #Agentic Intelligence

2026년 3월 5일

[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration

기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #LLM Agents #Software Engineering #Code Maintenance #Continuous Integration #Benchmark #Code Generation #Long-term Evaluation #Technical Debt

2026년 3월 4일

[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMs

대부분의 Multimodal Large Language Models (MLLMs)이 오프라인 패러다임으로 작동하여 실시간 상호작용 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Real-time Interaction #Video Understanding #Benchmark #Temporal Reasoning #Long-term Memory #Proactive Response

2026년 3월 4일

[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.

#Review #Unified Multimodal Models #Multimodal Understanding #Generation-to-Understanding #Benchmark #Vision-Language Models #Generate-then-Answer #Model Evaluation

2026년 3월 3일

[논문리뷰] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning

본 논문은 실생활 시나리오에서 멀티모달 대규모 언어 모델(MLLM) 의 다양한 다중 이미지 추론 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Multi-Image Analysis #Real-life Scenarios #Benchmark #MLLMs Evaluation #Chain-of-Thought #Reasoning Types

2026년 3월 2일

[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAG

법률 RAG 시스템의 종단 간(end-to-end) 성능을 평가하기 위한 고품질 벤치마크 및 평가 방법론이 부족하다는 문제점을 해결하고자 합니다.

#Review #Retrieval-Augmented Generation (RAG)#Legal AI #Benchmark #Evaluation Methodology #Embedding Models #Large Language Models (LLMs)#Error Decomposition #Information Retrieval

2026년 3월 2일

[Ray Serve] Controller 마이크로벤치마크 공식 추가

Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.

#Ray #Python #Performance #Benchmark #Serve

2026년 3월 1일

[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Image Editing #Instruction-based Models #Small Object Editing #Benchmark #Evaluation Metrics #Large Multimodal Models (LMMs)#Visual Consistency

2026년 3월 1일

[논문리뷰] CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

대규모 언어 모델(LLM)이 생성하는 그럴듯하지만 실제로는 존재하지 않는 참고문헌 환각(hallucinated references) 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Hallucination #Citation Verification #Multi-Agent System #Benchmark #Fact Checking #Scientific Integrity #Information Retrieval #Qwen3-VL

2026년 3월 1일

[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI Agents

본 연구는 현재 바이모달 상호작용에 국한된 멀티모달 LLM의 한계를 넘어, 인간의 지능처럼 영상, 오디오, 이미지 모달리티 전반에 걸쳐 통합적으로 인지하고 추론하며 외부 도구를 사용하는 네이티브 옴니모달 AI 에이전트 를 개발하고 평가하는 것을 목표로 합니다.

#Review #Omni-modal AI #Multi-modal Agents #Tool-Integrated Reasoning #Benchmark #Event Graph #Active Perception #Trajectory Synthesis #DPO

2026년 2월 26일

[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.

#Review #Agentic Programming #CLI #Benchmark #Long-horizon Tasks #Code Generation #LLM Evaluation #Human-Agent Collaboration #Software Engineering

2026년 2월 24일

[논문리뷰] A Very Big Video Reasoning Suite

본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.

#Review #Video Reasoning #Large-scale Dataset #Benchmark #Cognitive Architecture #Scaling Studies #Video Generation #Generalization #Rule-based Evaluation

2026년 2월 23일

[faster-qwen3-tts] 모드 간 성능 동등성 검증 및 벤치마크 비교 문서화

VoiceClone, CustomVoice, ICL 모드가 CUDA graph 캡처 후 동일한 성능을 보이는지 검증하고 벤치마크를 문서화한다

#faster-qwen3-tts #TTS #Benchmark #Documentation

2026년 2월 21일

[faster-qwen3-tts] README 비스트리밍 RTF 수치 업데이트

Jetson AGX Orin의 non-streaming RTF을 1.36에서 1.57로 업데이트하여 최신 벤치마크를 반영한다

#faster-qwen3-tts #TTS #Documentation #Benchmark

2026년 2월 20일

[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화

표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.

#Grafana Loki #Go #Performance #Encoding #Benchmark #Data Object

2026년 2월 20일

[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성

Jetson Thor 결과를 추가하고, streaming TTFA 측정 방식을 개선하며 블로그 포스트의 수치를 업데이트한다

#faster-qwen3-tts #TTS #Benchmark #Jetson

2026년 2월 20일

[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가

NVIDIA Jetson Thor에서의 벤치마크 결과를 README와 블로그에 추가한다

#faster-qwen3-tts #TTS #Benchmark #Jetson Thor

2026년 2월 20일

[논문리뷰] MAEB: Massive Audio Embedding Benchmark

오디오 임베딩 모델의 평가 프로토콜이 파편화되어 모델 비교 및 의미 있는 진척도 추적에 어려움이 있는 문제를 해결하고자 합니다. 이를 위해 광범위하고 통일된 평가 프레임워크 인 MAEB(Massive Audio Embedding Benchmark) 를 구축하여 범용 오디오 임베딩 모델 개발을 촉진하는 것을 목표로 합니다.

#Review #Audio Embedding #Benchmark #Multimodal #Zero-shot Classification #Clustering #Representation Learning #MTEB Ecosystem #Cross-modal Audio-Text #Multilingual Audio

2026년 2월 18일

[논문리뷰] Learning Situated Awareness in the Real World

본 논문은 기존의 멀티모달 파운데이션 모델(MFM) 벤치마크들이 환경 중심의 공간 관계에만 초점을 맞추고, 에이전트의 시점, 자세, 움직임에 따른 관찰자 중심의 상황 인식(situated awareness) 을 간과하는 문제점을 해결하고자 합니다.

#Review #Situated Awareness #Egocentric Vision #Spatial Reasoning #Multimodal Foundation Models #Video Understanding #Benchmark #Real-world Data

2026년 2월 18일

[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI Research

AI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.

#Review #LLM Agents #AI Research #Benchmark #Closed-loop Research #Agent Evaluation #Reproducibility #Real-world Tasks

2026년 2월 17일

[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

기존 벤치마크의 제한적인 태스크 복잡도, 정보 검색 가능성, 평가 차원의 문제를 해결하여 멀티모달 웹 브라우징 에이전트의 심층 검색 역량을 포괄적으로 평가할 수 있는 새롭고 검증 가능한 벤치마크를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Web Browsing Agents #Deep Search #Benchmark #Tool Use #Process Evaluation #Multimodal Reasoning #Open-world QA

2026년 2월 16일

[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite

본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.

#Review #Generative Fluid Intelligence #UMM Evaluation #Visual Generation #Ad-hoc Reasoning #Contextual Adaptation #Benchmark #Attention Intervention

2026년 2월 11일

[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies

이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Evaluation #Long-Horizon Planning #Interactive Economies #Benchmark #Agentic AI #Economic Simulation #Plan-and-Execute

2026년 2월 11일

[Triton] grouped_gemm 벤치마크 min/max ms 반환 순서 수정

perf_report에서 error bar가 뒤집히는 문제를 반환값 순서 교정으로 해결

#Triton #Tutorial #Bug Fix #Benchmark

2026년 2월 11일

[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant

기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.

#Review #Search Agents #Information Seeking #Benchmark #LLM-driven Agents #Human Trajectories #Deep and Wide Search #Deterministic Evaluation #Dynamic Evaluation

2026년 2월 9일

[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments

본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.

#Review #GUI Generation #Image Generation Models #Benchmark #Temporal Coherence #Spatial Grounding #Evaluation Metric #Vision Language Models

2026년 2월 9일

[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.

#Review #Video Understanding #In-Context Learning #Procedural Knowledge #Multimodal LLMs #Benchmark #Direct Preference Optimization #Demonstration Selection

2026년 2월 9일

[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks

본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.

#Review #Multimodal Models #Image Generation #Image Editing #Benchmark #Computer-Use Tasks #Planning #Evaluation Metrics

2026년 2월 8일

[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.

#Review #Retrieval-Augmented Generation #Large Language Models #Reasoning #Benchmark #Deep Search #Error Analysis #Scientific Problem Solving #Context Understanding

2026년 2월 5일

[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?

본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.

#Review #Video Generation #Implicit Reasoning #Benchmark #Evaluation #Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)

2026년 2월 5일

[논문리뷰] HY3D-Bench: Generation of 3D Assets

3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.

#Review #3D Generation #Dataset #Benchmark #AIGC #Watertight Mesh #Part-level Decomposition #Foundation Model #Robotics

2026년 2월 4일

[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles

현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.

#Review #Deep Research Agents #LLM Evaluation #Wikipedia #Good Articles #Factuality #Writing Quality #Benchmark #Hallucinations #Verifiability

2026년 2월 2일

[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Deep Research #Benchmark #Visual Search #Textual Search #Cropped Search #Evaluation

2026년 2월 2일

[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model

본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.

#Review #Multimodal Large Language Models #Cognitive Reasoning #Visual Imagery #Latent Representations #Reinforcement Learning #Visual Question Answering #Benchmark

2026년 2월 2일

[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.

#Review #LLM #Unit Test Maintenance #Software Engineering #Code Generation #Test Repair #Test Updating #Benchmark #Mutation Testing #Code Coverage

2026년 2월 1일

[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models

현재 Text-to-Image (T2I) 모델들이 복잡한 공간 관계(공간 인식, 추론, 상호작용) 처리에서 실패하는 한계를 해결하고, 기존의 짧고 정보 밀도가 낮은 프롬프트 기반 벤치마크의 부적합성을 극복하는 것을 목표로 합니다.

#Review #Text-to-Image Models #Spatial Intelligence #Benchmark #Evaluation #Prompt Engineering #Multimodal LLMs #Fine-tuning #Spatial Reasoning

2026년 1월 29일

[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

이 논문은 AI 에이전트가 복잡한 다단계 정보 탐색 작업 에서 포괄적인 답변 목록 을 생성하는 능력을 평가하기 위한 새로운 벤치마크인 DeepSearchQA 를 소개합니다.

#Review #AI Agents #Deep Research #Benchmark #Information Retrieval #Comprehensiveness #Multi-step Reasoning #Evaluation #LLM-as-a-Judge

2026년 1월 29일

[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.

#Review #Long-Context LLMs #Autonomous Agents #Benchmark #Environment Rollouts #State Tracking #Tool Use #Memory Evaluation #Lateral Thinking Puzzles

2026년 1월 29일

[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking

본 논문은 기존 벤치마크들이 다루지 못했던 시간-가변 오디오-비주얼 신호의 인간 문화적 맥락 이해 능력 을 평가하기 위해, MLLM(Multimodal Large Language Model) 의 맥락적, 문화적 지식 및 사고 능력 을 진단하는 새로운 벤치마크인 AVMeme Exam 을 제시합니다.

#Review #Multimodal LLMs #Benchmark #Cultural Understanding #Contextual Inference #Audio-Visual Memes #Multilingual #Q&A Evaluation

2026년 1월 27일

[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.

#Review #Multimodal Agents #Vision-Language Models (VLMs)#Interactive AI #Reinforcement Learning Environments #Benchmark #Decision-Making #Diagnostic Tools #Supervised Fine-tuning

2026년 1월 25일

[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing

기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.

#Review #Composed Image Retrieval #Fine-Grained Evaluation #Image Editing #Benchmark #Multimodal LLM #Synthetic Data #Compositional Reasoning

2026년 1월 22일

[논문리뷰] MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents

본 논문은 기존 연구 에이전트 벤치마크들이 텍스트 전용 또는 짧은 형태의 멀티모달 질의응답에 초점을 맞춰, 멀티모달 증거를 활용한 종단 간 보고서 생성 능력을 평가하는 데 한계가 있음을 지적합니다.

#Review #Multimodal Deep Research #Research Agents #Benchmark #Evaluation Framework #Retrieval-Augmented Generation #Large Multimodal Models #Visual Grounding #Citation Analysis

2026년 1월 21일

[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents

본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.

#Review #Process Reward Models #Tool-using Agents #Benchmark #Reinforcement Learning #Large Language Models #Reward-guided Search #Agent Evaluation #Step-level Rewards

2026년 1월 20일

[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.

#Review #Multimodal LLMs #Future Forecasting #Audio-Visual Reasoning #Benchmark #Instruction Tuning #Omni-Modal #Causal Reasoning

2026년 1월 20일

[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems

본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 물리적으로 제한된 실제 환경, 특히 다양한 목표와 엄격한 제약을 가진 우주 계획 문제(SPP) 에서 얼마나 효과적으로 계획하고 행동할 수 있는지 평가하는 것을 목표로 합니다.

#Review #LLM Agents #Space Planning #Benchmark #Agentic Planning #Physics Constraints #Decision Making #Zero-Shot Learning

2026년 1월 18일

[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상

Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.

#Grafana Loki #Go #Performance #Decoder #Memory Optimization #Benchmark

2026년 1월 15일

[Grafana Loki] 델타 디코더 벤치마크 개선 및 Decode 메서드 성능 측정 추가

단일 값 decode 벤치마크를 배치 단위 Decode 메서드 벤치마크로 재작성하고, 처리량 메트릭과 errors.Is 최적화를 추가한 분석.

#Grafana Loki #Go #Performance #Benchmark #Encoding

2026년 1월 14일

[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.

#Review #Video Question Answering #Open-domain Search #Multimodal LLMs #Agentic AI #Benchmark #Video Understanding #Multi-hop Reasoning

2026년 1월 12일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] BabyVision: Visual Reasoning Beyond Language

최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal LLMs #Visual Reasoning #Benchmark #Early Vision #Spatial Perception #Visual Tracking #Pattern Recognition #Generative Models

2026년 1월 12일

[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정

iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.

#Ray #Python #Performance #Benchmark #Training

2026년 1월 8일

[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.

#Review #Epidemiological Question Answering #Large Language Models #Benchmark #Multi-step Inference #Evidence Grounding #LLM Evaluation #Public Health AI #Chain-of-Thought

2026년 1월 7일

[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web

본 논문은 기존 벤치마크들이 텍스트 및 정적 멀티모달 정보 탐색에 초점을 맞추고 동적인 웹 비디오 콘텐츠를 간과하는 문제점을 해결하고자 합니다.

#Review #Agentic AI #Video Understanding #Web Browsing #Benchmark #Multimodal LLMs #Temporal Grounding #Cross-Source Reasoning #Information Seeking

2025년 12월 29일

[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs

이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.

#Review #Embodied AI #Vision and Language Navigation #Instance Object Navigation #Active Dialog #Large Language Models (LLMs)#Benchmark #Human-Robot Interaction

2025년 12월 29일

[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning

현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.

#Review #Video Generation #Social Reasoning #Benchmark #Evaluation #Agent-based Pipeline #Vision-Language Models #Social Cognition

2025년 12월 28일

[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior

언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.

#Review #Tokenizer #Language Models (LMs)#Robustness #Multilingual NLP #Benchmark #Subword Segmentation #Pre-training #Tokenization Impact

2025년 12월 24일

[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation

텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.

#Review #Text-to-Audio-Video Generation #Multimodal Evaluation #Benchmark #MLLM-as-a-Judge #Cross-modal Alignment #Instruction Following #Perceptual Realism #Audio Realism

2025년 12월 24일

[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs

멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.

#Review #Spatial Intelligence #Multimodal LLMs #Cognitive Hierarchy #Benchmark #Reinforcement Learning #Supervised Fine-tuning #Spatial Reasoning

2025년 12월 23일

[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Video Question Answering #Multi-evidence Integration #Video-LLMs #Benchmark #Temporal Reasoning #Frame Selection #Evidential Requirement #MRFS

2025년 12월 21일

[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.

#Review #Visual Grounding #MLLMs #Benchmark #Multi-Dimensional Evaluation #Rejection Capability #Test-Time Scaling #Data Mixture Training

2025년 12월 21일

[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.

#Review #GUI Grounding #Multi-Platform #Benchmark #MLLM #Hierarchical Evaluation #Human-in-the-Loop Annotation #GUI Agents #Multilingual Dataset

2025년 12월 18일

[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.

#Review #Reward Models #Multimodal LLMs #Benchmark #Text-to-Image Generation #Image Editing #Interleaved Generation #Multimodal Reasoning #MLLM-as-a-judge

2025년 12월 18일

[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.

#Review #Vision-Text Compression (VTC)#Long Context Understanding #Vision-Language Models (VLMs)#Benchmark #Information Retrieval #Associative Reasoning #Multimodal AI

2025년 12월 17일

[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents

이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.

#Review #Coding Agents #LLMs #Software Engineering #Repository Generation #Long-Horizon Reasoning #Benchmark #Python Development #Autonomous Systems

2025년 12월 15일

[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.

#Review #E-commerce #Foundation Agents #LLM Agents #Benchmark #Agent Evaluation #Tool Use #Multi-step Reasoning #Real-world Scenarios

2025년 12월 9일

[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.

#Review #Multimodal LLMs #Jailbreak Attack #Attack-Defense Evaluation #Benchmark #Safety Alignment #Vulnerability Analysis #Risk Taxonomy #Evaluation Metrics

2025년 12월 8일

[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing

논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.

#Review #Egocentric Video Editing #Real-Time Streaming #Augmented Reality #Video Generation #Dataset #Benchmark #Diffusion Models #Distillation

2025년 12월 8일

[triton] 벤치마크에서 symmetric memory 해제

분산 환경 벤치마크와 테스트에서 각 실행 후 symmetric memory pool을 명시적으로 해제하여 메모리 누수를 방지하도록 개선한 PR을 분석합니다.

#Triton #Benchmark #Distributed #Memory Management

2025년 12월 5일

[Triton] Hopper에서 소규모 배치 크기 벤치마크 수정

Hopper GPU에서 small batch MLP 벤치마크의 num_warps 설정과 테스트 케이스 추가

#Triton #Benchmark #Hopper #MLP #Bug Fix

2025년 12월 4일

[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AI

현재 다중 모달 대규모 언어 모델( MLLM )과 비디오 생성 모델( VGM )이 실제 물리적 역학을 인지하고 예측하는 능력을 충분히 지원하는지 이해하는 데 한계가 있습니다.

#Review #Physical AI #Benchmark #Video Generation #Conditional Video Generation #Video Understanding #Multimodal LLMs #Physical Plausibility #Embodied Reasoning

2025년 12월 2일

[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

본 연구는 대규모 언어 모델(MLLMs)이 스트리밍 비디오 환경에서 인간의 시선(gaze) 신호를 활용하여 시간적 추론 및 선제적 이해를 얼마나 효과적으로 수행하는지 평가하는 것을 목표로 합니다.

#Review #Streaming Video Understanding #Gaze-Guided AI #Temporal Reasoning #Proactive AI #MLLMs #Eye Tracking #Benchmark #Human-Computer Interaction

2025년 12월 1일

[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

대규모 언어 모델(LLMs)이 고자원 다국어 작업에서 우수한 성능을 보이지만, 저자원 및 초저자원 인디언 언어에 대한 평가는 심각하게 부족합니다. 본 연구는 이러한 언어에서의 LLM 성능 한계를 체계적으로 평가하고, 교차 언어 전이 학습의 효과를 밝히는 데 목적이 있습니다.

#Review #Low-resource Languages #Indic Languages #LLM Evaluation #Benchmark #Multilingual LLMs #Question Answering #Cross-lingual Transfer

2025년 12월 1일

[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists

이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.

#Review #Language Models #Refinement Capability #Self-Refinement #Guided Refinement #Checklist Evaluation #Multi-turn Interaction #Benchmark

2025년 11월 30일

[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model

본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model (MLLM)#Dental Imaging Analysis #Chain-of-Thought (CoT) Reasoning #Medical AI #Benchmark #Diagnosis #Oral Healthcare #Explainable AI

2025년 11월 30일

[논문리뷰] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following

본 연구는 기존 멀티모달 평가 벤치마크들이 단일, 총체적 선호도 에만 초점을 맞춰, 미세한 기준별 판단 과 기준 간의 충돌 을 간과하는 한계를 해결하고자 합니다.

#Review #Multimodal Judges #LMM Evaluation #Pluralistic Criteria #Criteria-Following #Trade-off Sensitivity #Conflict Resolution #Reward Models #Benchmark

2025년 11월 27일

[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering

본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.

#Review #Visual Question Answering (VQA)#Image Generation #Data-centric AI #Agentic Pipeline #Multimodal Models #Web-scale Data #Benchmark #LightFusion

2025년 11월 25일

[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection

이 논문은 AI 생성 콘텐츠(AIGC) 탐지에서 전체 이미지 분류에 집중하는 기존 방식의 한계를 극복하고, 확산 모델 기반의 로컬 편집 에 대한 동시적인 편집 영역 위치 파악(localization) 및 모델 귀속(attribution) 을 목표로 합니다.

#Review #AIGC Detection #Diffusion Models #Image Editing #Semantic Segmentation #Localization #Model Attribution #Benchmark #Multi-turn Editing

2025년 11월 25일

[논문리뷰] Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?

본 논문은 최신 세계 모델(World Models, WMs)이 텍스트로 지정된 암묵적인 의미론적 목표를 가진 길 없는 경로 계획(mapless path planning) 작업을 실제 환경에서 얼마나 잘 수행하는지 정량적으로 평가하는 것을 목표로 합니다.

#Review #World Models #Mapless Navigation #Semantic Path Planning #Robot Learning #Video Prediction #Benchmark #Trajectory Generation

2025년 11월 24일

[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning

본 논문은 인공 에이전트의 교차 환경 학습 능력 을 체계적으로 측정하기 위한 표준화된 인프라의 부재를 해결하는 것을 목표로 합니다. 특히, 다양하고 제어 가능한 환경의 부족과 에이전트 학습 방식을 통일적으로 표현할 방법이 없다는 두 가지 핵심 문제를 다룹니다.

#Review #Automated Environment Generation #Cross-Environment Learning #Agent Learning #Language Models #Benchmark #Meta-Learning #Reinforcement Learning #Environment Design Language

2025년 11월 24일

[논문리뷰] Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs

본 연구는 대규모 언어 모델(LLM)이 권위나 설득과 같은 사회적 압력 에 직면했을 때 진실성을 왜곡하고 정확도가 저하되는 아첨(sycophancy) 현상을 측정하기 위한 견고성 중심의 프레임워크 를 제시합니다.

#Review #LLM Sycophancy #Model Robustness #AI Alignment #Benchmark #Confidence Calibration #Behavioral Taxonomy #Social Influence #Epistemic Collapse

2025년 11월 23일

[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.

#Review #Video Models #Spatial Reasoning #Maze Solving #Video Generation #Benchmark #Supervised Fine-tuning #Test-Time Scaling #Multimodal Reasoning

2025년 11월 19일

[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning

기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.

#Review #Benchmark #LLMs #Scientific Reasoning #Multidisciplinary #AI4S #Data Contamination #Evaluation #LRM-as-Judge

2025년 11월 18일

[논문리뷰] GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

본 논문은 통합 멀티모달 모델(UMMs)의 생성적 추론 능력 을 평가하기 위한 벤치마크 개발을 목표로 합니다. 기존 벤치마크들이 판별적 이해 또는 제약 없는 생성만을 평가하는 한계를 극복하고, 언어 이해와 정밀한 시각 생성을 융합하는 기하학적 생성적 추론 을 종합적으로 측정하고자 합니다.

#Review #Multimodal AI #Generative Reasoning #Geometric Construction #Benchmark #GeoGebra #Code-based Evaluation #Unified Models

2025년 11월 16일

[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents

본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.

#Review #Deep Research Agents #LLM Evaluation #Benchmark #Rubrics #Multi-step Reasoning #Cross-document Synthesis #AI Performance #Task Complexity

2025년 11월 13일

[논문리뷰] MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique

본 논문은 대규모 멀티모달 모델(LMMs) 의 멀티모달 비판 능력에 대한 포괄적이고 신뢰성 있는 평가의 필요성을 제기하며, LMMs의 자가 개선 및 신뢰성 향상을 목표로 합니다. 기존 벤치마크의 이진 선호도 예측 한계를 넘어, 기본, 교정, 비교의 세 가지 비판 차원에서 MM-CRITIC 벤치마크를 제안합니다.

#Review #LMMs #Multimodal Critique #Benchmark #Evaluation #Reward Model #GPT-4o #Scaling Law

2025년 11월 13일

[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains

본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM #Role-playing #Safety Alignment #Villain #Persona Simulation #Moral Alignment #Benchmark #Character Fidelity

2025년 11월 9일

[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents

본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agents #GUI Grounding #Screen Parsing #Action Prediction #Desktop Automation #Dataset #Benchmark #Multimodal Learning #LLM-augmented Data

2025년 11월 9일

[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity

기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.

#Review #Multimodal LLMs #Benchmark #Cognitive Capacity #Visual Reasoning #MLLM Evaluation #Error Analysis #Chain-of-Thought

2025년 11월 9일

[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.

#Review #3D Scene Synthesis #Fine-Grained Evaluation #Tool-Augmented LLMs #Embodied AI #Vision-Language Models #Benchmark #Multi-Hop Grounding

2025년 11월 9일

[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought

본 논문은 중간 시각 이미지를 생성하는 것이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위한 새로운 벤치마크인 MIRA (Multimodal Imagination for Reasoning Assessment) 를 제안합니다.

#Review #Multimodal AI #Visual Reasoning #Chain-of-Thought (CoT)#Benchmark #Image Generation #MLLMs #Visual-CoT

2025년 11월 9일

[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.

#Review #Multimodal AI #Code Generation #SVG #Visual Representation #Benchmark #Large Vision-Language Models #Agentic AI #Reasoning

2025년 11월 9일

[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMs

대규모 언어 모델(LLMs)이 인간 지능의 핵심 요소인 유연하고 다면적인 추론 능력(논리적 추론, 공간 인식, 제약 조건 만족)을 평가하는 데 있어 기존 벤치마크의 한계를 해결하고자 합니다.

#Review #LLM Reasoning #Generative AI #Benchmark #Logical Deduction #Spatial Reasoning #Constraint Satisfaction #Hallucination Cascade #Self-Correction

2025년 11월 9일

[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw

현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.

#Review #LLM Evaluation #Spatial Reasoning #Benchmark #Generative AI #Visual Perception #Spatial Imagination #Code Generation

2025년 11월 9일

[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models

대규모 멀티모달 모델(LMM)이 이미지 인코더에서 생성되는 막대한 수의 시각 토큰으로 인해 겪는 심각한 추론 비효율성 문제를 해결하는 것이 주된 목표입니다.

#Review #Large Multimodal Models #Visual Token Compression #Token Pruning #Benchmark #Efficiency #Inference Latency #Multimodal LLMs

2025년 11월 9일

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Reasoning-based AI #Benchmark #Multimodal Learning #Chain-of-Thought (CoT)#Dual-Reference Evaluation #Generative Models #Game AI

2025년 11월 9일

[triton] Tutorials: 벤치마크 결과 테이블에 단위(units) 표시 추가

Triton 튜토리얼의 벤치마크 결과 테이블 컬럼에 ylabel 단위를 포함시켜 결과의 가독성을 개선한 변경 분석.

#Triton #Tutorial #Benchmark #UX #Python

2025년 11월 4일

[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark

본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.

#Review #Unified Models #Multimodal AI #Benchmark #Capability Synergy #Visual Understanding #Image Generation #Dual-Evaluation Protocol

2025년 9월 30일

[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling

본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Image Editing #Reward Modeling #Instruction-Guided Editing #Online RL #Visual Language Models #Benchmark #Self-Ensembling

2025년 9월 30일

[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models

본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.

#Review #Code Large Language Models #Visual Game Generation #Benchmark #Pygame #Multimodal Evaluation #Software Engineering #AI-assisted Game Development

2025년 9월 26일

[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models

본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Reasoning Strategies #Prompt Engineering #LLM Evaluation #Benchmark #Thinking Styles #Scaling Laws #Meta-Reasoning

2025년 9월 26일

[논문리뷰] Does FLUX Already Know How to Perform Physically Plausible Image Composition?

본 연구는 복잡한 조명, 그림자, 물 반사 등 물리적으로 사실적인 이미지 합성 을 사전 훈련된 텍스트-투-이미지(T2I) 확산 모델 을 활용하여 훈련 없이 수행하는 것을 목표로 합니다. 기존 모델들이 가진 객체 포즈 고정, 부적절한 해상도 처리, 그리고 컨텍스트에 맞지 않는 조명 생성 등의 한계를 극복하고자 합니다.

#Review #Image Composition #Diffusion Models #Training-Free #Physically Plausible #FLUX #Adapter #Guidance #Benchmark

2025년 9월 26일

[논문리뷰] BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

본 논문은 검색 증강 대규모 언어 모델(LLMs)의 개인화 능력 평가에 대한 체계적인 벤치마크 부재 문제를 해결하고자 합니다. 사용자의 다양한 정보 요구와 선호하는 전달 방식을 LLM이 얼마나 효과적으로 반영하는지 진단하고 평가하기 위한 사실적이고 진단적인 벤치마크 인 BESPOKE 를 제안하는 것을 목표로 합니다.

#Review #Search-Augmented LLMs #Personalization #Benchmark #Diagnostic Feedback #User History #Evaluation Framework #RAG

2025년 9월 26일

[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

본 연구는 기존 비디오 벤치마크들이 장거리 이동 및 다일(multi-day) 활동과 같은 거시적 규모의 지리 공간-시간적 시나리오 를 충분히 다루지 못한다는 한계를 지적하며, MLLM(Multimodal Large Language Models)의 확장된 지리 공간 및 시간적 이해 능력 을 평가하는 새로운 벤치마크 VIR-Bench를 제시합니다.

#Review #Multimodal LLMs #Video Understanding #Geospatial Reasoning #Temporal Reasoning #Travel Itinerary Reconstruction #Benchmark #Agent System #VLOG

2025년 9월 24일

[논문리뷰] OpenGVL - Benchmarking Visual Temporal Progress for Data Curation

로봇 공학 분야의 데이터 부족 문제를 해결하고, 대규모 로봇 데이터셋을 자동으로 주석 및 큐레이션할 수 있는 도구의 필요성을 강조합니다. 이를 위해 시각적 관측을 통한 로봇 작업 진행도 예측을 위한 벤치마크인 OpenGVL 을 제안하고, 데이터 큐레이션 도구로서의 활용 가능성을 입증하는 것을 목표로 합니다.

#Review #Robotics Data Curation #Visual Temporal Progress #Generative Value Learning (GVL)#Vision-Language Models (VLMs)#Benchmark #Task Progress Prediction #Value-Order Correlation (VOC)

2025년 9월 24일

[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR

본 논문은 필기체 스크립트, 다양한 글꼴, 발음 기호, 우-좌향 텍스트 방향성으로 인해 어려운 아랍어 문서 OCR의 과제를 해결하고자 합니다.

#Review #Arabic OCR #Vision-Language Model #Fine-tuning #Document Understanding #Markdown Conversion #Benchmark

2025년 9월 24일

[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery

본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Visual Question Answering #Reinforcement Learning #Cultural Heritage #Ancient Greek Pottery #Supervised Fine-Tuning #Benchmark

2025년 9월 23일

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects

기존 LLM 기반 코드 리뷰(CR) 벤치마크가 겪는 '현실성 격차'(reality gap) 문제를 해결하고자 합니다.

#Review #Code Review #LLMs #Benchmark #Python Projects #End-to-End Evaluation #Context-Awareness #Software Engineering #LLM-as-a-Judge

2025년 9월 23일

[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?

언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.

#Review #Auditory Knowledge #Large Language Models #Multimodal Reasoning #Benchmark #Chain-of-Thought #Auditory Imagination #Text-only Reasoning

2025년 9월 23일

[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations

논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.

#Review #Agent Environments #Agent Evaluation #LLM Agents #Asynchronous Systems #Reinforcement Learning #Tool Use #Multi-agent Collaboration #Benchmark

2025년 9월 23일

[논문리뷰] SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

대규모 언어 모델(LLM)의 정렬 조작(alignment steering) 방법론들을 총체적으로 평가 하는 것을 목표로 합니다.

#Review #LLM Alignment #Representation Steering #Benchmark #Behavioral Entanglement #Bias Mitigation #Harmful Generation #Hallucination Control #Modular Framework

2025년 9월 18일

[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam

기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.

#Review #Text-to-Image Generation #Multidisciplinary #Benchmark #Evaluation #AGI #Reasoning #Scoring System #Visual Question Answering

2025년 9월 18일

[논문리뷰] Measuring Epistemic Humility in Multimodal Large Language Models

본 논문은 멀티모달 대규모 언어 모델(MLLM)의 환각(hallucination) 문제를 해결하고, 특히 모델이 불확실한 상황에서 잘못된 정보를 확신하지 않고 '모르는 것을 모른다고 인정하는' 능력 , 즉 인식론적 겸손(epistemic humility) 을 측정하는 새로운 벤치마크를 제시하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Hallucination #Epistemic Humility #Benchmark #False-Option Rejection #Visual Question Answering #Scene Graph

2025년 9월 16일

[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.

#Review #Voice Style Adaptation #Spoken Language Models #Benchmark #LALM-as-a-Judge #Speech Generation #Multilingual #Evaluation Framework

2025년 9월 15일

[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.

#Review #Headline Generation #Minority Languages #Low-Resource NLP #Dataset #Benchmark #Natural Language Generation #Chinese Minority Languages

2025년 9월 15일

[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering

본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.

#Review #Long-Context LLMs #Software Engineering #Code Evaluation #Benchmark #Multi-file Reasoning #Architectural Understanding #Context Length #Software Development Lifecycle #Metrics

2025년 9월 12일

[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.

#Review #Text-to-Image Generation #Reasoning Dataset #Benchmark #Generation Chain-of-Thought #Vision-Language Model #Image Aesthetics #Prompt Alignment

2025년 9월 12일

[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants

AI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.

#Review #Human Agency #AI Assistants #LLM Evaluation #Benchmark #Sociotechnical AI #AI Alignment #Scalable Evaluation

2025년 9월 11일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents

이 논문은 모바일 GUI 에이전트의 효율성을 높이기 위해 GUI 작업과 효율적인 바로가기(shortcuts) 를 결합한 하이브리드 패러다임의 체계적인 벤치마킹 프레임워크가 부족하다는 문제를 해결하고자 합니다.

#Review #Mobile GUI Agents #Hybrid Automation #Shortcut Generation #Benchmark #Task Efficiency #LLM-based Agents #Mobile Robotics

2025년 9월 9일

[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.

#Review #LLMs #Instruction Following #Benchmark #Cognitive Inertia #Out-of-Distribution #Supervised Fine-Tuning #Evaluation #Robustness

2025년 9월 5일

[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

본 논문은 기존 벤치마크의 데이터 누출 위험과 비현실적인 평가 방식의 한계를 극복하기 위해, 대규모 언어 모델(LLM) 기반 연구 에이전트 의 실제 연구 능력을 평가하기 위한 새로운 벤치마크인 DeepResearch Arena 를 제안합니다.

#Review #LLM Evaluation #Research Agents #Benchmark #Multi-Agent System #Seminar-Grounded Tasks #Data Leakage Prevention #Ill-Structured Problems

2025년 9월 5일

[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games

기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.

#Review #GUI Agents #Adventure Games #Benchmark #Full Story Arc #Observation-Behavior Gap #LLMs #Automated Evaluation

2025년 9월 3일

[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding

Video MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.

#Review #Long Video Understanding #Hallucination #Semantic Aggregation #Video MLLM #Benchmark #DPO #Positional Encoding #VideoQA

2025년 9월 3일

[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks

본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.

#Review #Deep Research Agents #LLM Evaluation #Academic Survey #Factual Accuracy #Citation Verification #Report Generation #Benchmark #Hallucination

2025년 8월 27일

[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics

본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.

#Review #Large Language Models #Condensed Matter Physics #Benchmark #Scientific Reasoning #Evaluation Metric #Expression Edit Distance #Problem Solving

2025년 8월 27일

[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods

이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.

#Review #Visually-Guided Image Editing #Multimodal Models #Benchmark #Hallucination #Diffusion Models #Autoregressive Models #Evaluation Metrics

2025년 8월 26일

[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.

#Review #Competitive Programming #LLM Evaluation #Code Reasoning #Benchmark #Test Case Generation #Programming Competitions #Algorithmic Problems

2025년 8월 25일

[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior

이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.

#Review #AI Companionship #Benchmark #Language Models (LLMs)#Human-AI Interaction #Emotional AI #Boundary Setting #Psychological Frameworks #Evaluation Metrics

2025년 8월 22일

[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References

이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.

#Review #Controllable Image Generation #Multi-modal Generation #Visual References #Image-to-Image #Benchmark #Dataset #MLLM-as-a-Judge

2025년 8월 20일

[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence

본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.

#Review #Audio Intelligence #Multimodal AI #Benchmark #Audio-Language Models #Holistic Evaluation #Reasoning #Long-Form Audio #Multicultural Music

2025년 8월 20일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds

본 논문의 핵심 연구 목표는 복잡한 가상 세계 내에서 대규모 언어 모델(LLM) 의 장기 계획 및 구조화된 추론 능력을 평가하는 것입니다.

#Review #Long-Horizon Planning #Structured Reasoning #LLM Evaluation #Virtual Worlds #RPG #Benchmark #Agent Systems #Combat Simulation

2025년 8월 19일

[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models

논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.

#Review #Multimodal LLM #Code Generation #Model Merging #Task Vectors #Vision-Language Model #Coding LLM #Instruction Tuning #Benchmark

2025년 8월 14일

[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking

본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.

#Review #Agentic Search #LLM #Benchmark #Information Seeking #Structured Output #Evaluation Metrics #Multi-agent Systems

2025년 8월 12일

[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

본 논문은 기존 벤치마크의 영어 단일 언어 및 단일 페이지 제한을 넘어, 다국어 장문 문서 에서 질문 기반 멀티모달 검색(multimodal retrieval) 을 평가하기 위한 새로운 벤치마크인 VisR-Bench 를 제안합니다.

#Review #Multimodal Retrieval #Retrieval-Augmented Generation #Long Document Understanding #Multilingual NLP #Visual QA #Benchmark #MLLMs #Table Understanding

2025년 8월 12일

[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.

#Review #Video Object Segmentation #Dataset #Complex Scenes #Benchmark #Object Tracking #Computer Vision #Dataset Challenges

2025년 8월 8일

[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.

#Review #Vision Language Models (VLMs)#Agentic AI #Physical Reasoning #Benchmark #Simulation Environments #Action Planning #Interactive AI

2025년 8월 8일

[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

본 논문은 기존 도구 사용 벤치마크가 시뮬레이션되거나 소규모의 MCP(Model Context Protocol) 서버에 국한되어 실제 대규모의 동적인 환경을 반영하지 못하는 한계를 지적합니다.

#Review #LLM Agent #Tool-use #MCP #Benchmark #Large-scale #Real-world tasks #Automated Evaluation #Meta-tool-learning

2025년 8월 6일

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.

#Review #Motion Generation #Generalization #Diffusion Models #Transformer #Large-scale Dataset #Benchmark #Multimodal Learning #Video Generation

2025년 10월 31일

[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment

기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.

#Review #Vision-Language Models (VLMs)#Chart Understanding #Visual Grounding #Dense Alignment #Benchmark #Robustness #Multimodal Learning

2025년 10월 31일

[논문리뷰] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark

본 논문은 웨어러블 AI 시나리오를 위한 Multi-Modal Retrieval-Augmented Generation (MM-RAG) 시스템의 포괄적인 평가를 위한 벤치마크가 부족하다는 문제를 해결합니다.

#Review #Multi-modal RAG #Benchmark #Wearable AI #Multi-turn Conversation #Egocentric Images #Knowledge Graph #Web Search #Hallucination

2025년 10월 31일

[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.

#Review #LLM Evaluation #Mathematical Reasoning #Olympiad-level Math #Benchmark #Performance Saturation #Test-time Scaling #AMO-Bench

2025년 10월 31일

[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains

이 논문은 기존 벤치마크의 Anglocentric 및 도메인-불가지론적 한계를 해결하고, 인도 중심의 지식 시스템에 대한 평가 부족 문제를 다룹니다.

#Review #Large Language Models (LLMs)#Benchmark #Indic Languages #Multilingual Evaluation #Domain-Specific AI #India-centric Knowledge Systems #Zero-Shot Learning #Question Answering

2025년 10월 30일

[논문리뷰] VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations

컴퓨터 비전 분야에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.

#Review #Visualization Quality Assessment #MLLMs #Benchmark #Aesthetics #Fidelity #Expressiveness #Fine-tuning #Reinforcement Learning

2025년 10월 29일

[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence

기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.

#Review #Audio Intelligence #Spatio-Temporal Reasoning #4D Audio #Benchmark #Large Audio-Language Models #Perceptual Reasoning #Multimodal LLMs

2025년 10월 29일

[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding

본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.

#Review #Patent Text Embedding #Benchmark #Multi-task Learning #Patent Retrieval #Sentence Embeddings #Knowledge Distillation #Cross-Domain Retrieval #Prompt Engineering

2025년 10월 29일

[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents

기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.

#Review #Multimodal Agents #Tool Invocation #Benchmark #Model Context Protocol (MCP)#GUI Automation #Computer-Use Agents #Evaluation Metrics

2025년 10월 29일

[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences

본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.

#Review #Reward Modeling #Multimodal AI #Human Preferences #RLHF #Generalist AI #Benchmark #Dataset #Free-Form Preferences

2025년 10월 28일

[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.

#Review #Knowledge Editing #Audio-Language Models #Auditory Attributes #Benchmark #Reliability #Generality #Locality #Portability

2025년 10월 24일

[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff Understanding

본 논문은 대규모 언어 모델(LLM)이 코드 diff를 얼마나 효과적으로 이해하고 처리하는지 평가하기 위한 Diff-XYZ 벤치마크를 제안합니다.

#Review #Diff Understanding #Code Diff #Benchmark #LLMs #Code Editing #Software Engineering #Unified Diff Format #Search-Replace

2025년 10월 24일

[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

본 논문은 Multimodal Large Language Models (MLLMs)의 다중 작업 지도 미세 조정(SFT)에서 최적의 데이터 혼합 전략을 찾아 성능을 극대화하는 문제를 해결합니다. 특히, 모바일 폰 에이전트(MPA)의 다양한 기능을 동시에 처리하는 MLLM의 효율성을 향상시키는 것을 목표로 합니다.

#Review #Multimodal LLMs #Fine-tuning #Data Mixing Optimization #Mobile Phone Agents #Downstream Task Prediction #Benchmark #Neural Networks

2025년 10월 23일

[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.

#Review #Text-to-Image Generation #Semantic Evaluation #Benchmark #Multilingual Evaluation #Fine-grained Assessment #Large Language Models #Model Evaluation #Prompt Engineering

2025년 10월 22일

[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.

#Review #Large Multimodal Models (LMMs)#Scientific Document Analysis #Multimodal Inconsistencies #Peer Review #Benchmark #Debiasing #JSON-based Representation #Reasoning

2025년 10월 22일

[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues

기존 MLLM 평가 벤치마크가 주로 단일 턴 질의응답과 비디오 내용의 사실적 인지에만 초점을 맞춘 한계를 해결합니다.

#Review #Multimodal LLMs #Video Understanding #Benchmark #Multi-Turn Dialogues #Perceptivity #Interactivity #Evaluation

2025년 10월 22일

[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?

비디오 캡셔닝 분야에서 멀티모달 대규모 언어 모델(MLLM) 이 사용자의 특정 지시사항(예: 출력 형식, 길이, 내용 제약)을 얼마나 잘 따르는지 평가하는 새로운 벤치마크를 제시하는 것이 목표입니다.

#Review #Video Captioning #Instruction Following #MLLMs #Benchmark #Controllable Generation #Multimodal Evaluation #Fine-tuning

2025년 10월 22일

[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial Intelligence

논문은 관찰자와 객체가 동시에 움직이는 동적 3D 시나리오 에서 최신 Vision-Language Models (VLMs)의 제한적인 이해 능력을 해결하고자 합니다.

#Review #Dynamic Spatial Reasoning #Vision-Language Models (VLMs)#Benchmark #Video Understanding #Motion Perception #3D Spatial Intelligence #Hallucinations #Bias

2025년 10월 22일

[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?

이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.

#Review #Image Editing #Physical Realism #Benchmark #VLM-as-a-Judge #Synthetic Data #Physics-Aware AI #Diffusion Models #Evaluation Metrics

2025년 10월 21일

[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models

기존 Vision-and-Language Model (VLM) 평가 벤치마크들이 다중 턴 대화 시나리오의 깊이와 폭을 충분히 포착하지 못하는 한계를 해결하고자 합니다.

#Review #Multi-Turn Conversation #VLM Evaluation #Benchmark #Vision and Language Models #Contextual Understanding #Checklist-based Evaluation #Interactive AI

2025년 10월 21일

[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain

본 논문은 금융 도메인에서 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 FINTRUST 벤치마크를 제시합니다.

#Review #LLM Trustworthiness #Finance Domain #Benchmark #Alignment Evaluation #Financial AI #Hallucination #Privacy #Fairness

2025년 10월 20일

[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning #Diagram Generation #Dataset #Benchmark

2025년 10월 17일

[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

본 논문은 통합 멀티모달 모델의 생성(Generation) 및 이해(Understanding) 능력 간의 실제적인 상호작용 을 평가하는 기존 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal AI #Unified Models #Benchmark #Generation #Understanding #Reasoning #Evaluation #Cross-modal Synergy

2025년 10월 16일

[논문리뷰] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

본 논문은 Diffusion LLM (dLLM)의 병렬 디코딩이 토큰 의존성 을 무시하여 발생하는 생성 품질 저하 문제와 그로 인한 속도-품질 트레이드오프를 심층적으로 이해하고 정량화하는 것을 목표로 합니다.

#Review #Diffusion LLMs #Parallel Decoding #Speed-Quality Trade-off #Benchmark #Token Dependencies #Unmasking Strategies #Information Theory

2025년 10월 16일

[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model

기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.

#Review #Reinforcement Learning (RL)#Mathematical Reasoning #Benchmark #Large Language Models (LLMs)#Exploration #Boundary Expansion #MATH-Beyond

2025년 10월 16일

[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models

본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.

#Review #Vision-Language-Action Models #Robotics #Robustness Analysis #Generalization #Perturbations #Benchmark #LIBERO-Plus #Multimodal AI

2025년 10월 16일

[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math

본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.

#Review #LLM Verification #Math Reasoning #Step-Level Verification #Benchmark #Open-Ended Problems #Process Reward Models #Generative Critics

2025년 10월 16일

[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.

#Review #Experiment Video Understanding #Multimodal Large Language Models (MLLMs)#Scientific Reasoning #Benchmark #Wet-Lab Experiments #Procedural Understanding #Fine-grained Perception #Video QA

2025년 10월 15일

[논문리뷰] Understanding DeepResearch via Reports

본 논문은 지식 집약적 연구 작업을 수행하는 DeepResearch 에이전트 의 복합적인 평가 문제에 주목합니다.

#Review #DeepResearch Agents #LLM-as-a-Judge #Report Evaluation #Agentic AI #Factuality #Redundancy #Research Automation #Benchmark

2025년 10월 13일

[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval

기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.

#Review #Multimodal Retrieval #Benchmark #Reasoning #Multidisciplinary #Expert-Level #Image-Text Interleaving #Contradiction Retrieval

2025년 10월 13일

[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!

최근 학술 연구의 양이 급증하면서 연구자들은 자신의 논문을 효과적으로 홍보하고 가시성 및 인용을 확보하는 데 상당한 시간과 노력을 투자해야 합니다.

#Review #Academic Promotion #Large Language Models #Multi-Agent Systems #Scholarly Communication #Multimodal Processing #Benchmark #Content Generation #Social Media Marketing

2025년 10월 13일

[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG

본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.

#Review #Multimodal RAG #Document AI #Benchmark #Information Retrieval #Large Language Models #Multimodal Embeddings #PDF Processing #Question Answering

2025년 10월 10일

[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

기존 비디오 벤치마크들이 일반 시나리오와 단순 추론에 집중하여 최신 대규모 멀티모달 모델(LMM) 의 고급 인지 능력을 평가하는 데 한계가 있음을 지적하며, 과학 분야에서의 복잡한 비디오 추론 능력을 종합적으로 평가할 수 있는 엄격한 벤치마크인 SciVideoBench 를 구축하는 것을 목표로 합니다.

#Review #Video Reasoning #Multimodal AI #Scientific Research #Large Multimodal Models #Benchmark #Quantitative Reasoning #Domain Knowledge #Visual Grounding

2025년 10월 10일

[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.

#Review #Multimodal LLMs #Reflective Reasoning #Long-Chain Reasoning #Benchmark #Policy Optimization #Data Generation #Reinforcement Learning #Backtracking

2025년 10월 10일

[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #MLE (Machine Learning Engineering)#Automated Task Generation #Multi-Agent System #LLM Agents #Benchmark #Data Curation #Hybrid Verification #Kaggle

2025년 10월 9일

[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

대부분의 기존 egocentric vision 벤치마크가 주간 시나리오에 집중하여 야간의 저조도 환경을 간과하는 문제를 해결하고자 합니다.

#Review #Egocentric Vision #Nighttime Conditions #Visual Question Answering (VQA)#Day-Night Alignment #Multimodal Large Language Models (MLLMs)#Depth Estimation #Correspondence Retrieval #Benchmark

2025년 10월 8일

[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL

본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.

#Review #Text-to-SQL #WikiSQL #LLM #Dataset Curation #Natural Language Processing #Benchmark #SQL Generation #Data Cleaning

2025년 10월 7일

[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?

본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.

#Review #LLM #LLM Agents #Academic Survey Generation #Evaluation Framework #Benchmark #Quiz-driven Evaluation #Content Quality Metrics

2025년 10월 6일

[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.

#Review #Medical AI #Spine Diagnosis #Multimodal LLM #Benchmark #Dataset #Clinical Reasoning #Spine Surgery #Vision-Language Model

2025년 10월 6일

[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.

#Review #LLM Bias Mitigation #Benchmark #Evaluation Metrics #Prompt Engineering #Fine-tuning #Bias-Free Score #Fairness

2025년 10월 2일

[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.

#Review #Voice AI #LLM #Reasoning #Benchmark #Modality Gap #Latency #Speech Recognition #Generative AI #Real-time Systems #Conversational AI

2025년 10월 1일

[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes

현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.

#Review #Visual Question Answering #Multimodal Models #Dense Scenes #Fine-Grained Perception #Benchmark #Error Analysis #Counting #OCR

2025년 10월 1일

[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use

본 논문은 기존의 MCP(Model Context Protocol) 벤치마크가 현실적인 워크플로우의 복잡성을 제대로 포착하지 못하고 읽기 위주 또는 제한적인 상호작용 깊이에 머물러 있다는 문제점을 해결하고자 합니다.

#Review #LLM Agents #Model Context Protocol #Benchmark #Tool Use #CRUD Operations #Workflow Automation #Stress Testing #Evaluation

2025년 10월 1일