[논문리뷰] SOCO: Benchmarking Semantic Object Correspondence in Vision Foundation Models본 연구는 기존의 VFMs 평가 방식이 복잡한 객체 간의 관계와 의미적 대응(semantic correspondence) 능력을 충분히 검증하지 못한다는 한계에서 출발합니다.#Review#Vision Foundation Models#Semantic Correspondence#Benchmark#Object-Centric Representation#Transfer Learning#Feature Extraction2026년 6월 1일댓글 수 로딩 중
[논문리뷰] RoboStressBench: Benchmarking VLM Robustness to Physical Visual Stress in Embodied Scenes본 논문은 기존 VLM 벤치마크가 현실의 물리적 환경에서 발생하는 다양한 시각적 스트레스를 제대로 반영하지 못한다는 점을 해결하고자 합니다.#Review#Vision-Language Models#Embodied AI#Robustness#Physical Visual Stress#Benchmark#Inverse Graphics#Test-Time Rectification2026년 6월 1일댓글 수 로딩 중
[논문리뷰] MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft본 논문은 MLLM 에이전트의 진정한 오픈 월드 탐색 능력을 객관적으로 평가할 수 있는 통제된 프레임워크가 부족하다는 점을 해결하고자 한다. 기존의 게임 기반 벤치마크들은 특정 게임 메커니즘에 지나치게 의존하거나, 상호작용의 범위가 단기적인 작업에 국한되어 에이전트의 장기적인 탐색 능력을 측정하기 어렵다는 한계가 있다 .#Review#MLLM Agents#Open-World Exploration#Minecraft#Embodied AI#Benchmark#Task Synthesis#Multi-Agent Workflow2026년 6월 1일댓글 수 로딩 중
[논문리뷰] HakushoBench: A Japanese Chart and Table VQA Benchmark from Governmental White Papers본 연구는 기존 VQA 벤치마크들이 주로 서구권의 데이터나 단순한 합성 차트에 편향되어 있어, 일본의 공식 행정 문서와 같이 복잡한 레이아웃과 높은 Domain-Specific 지식을 요구하는 자료에 대한 평가가 부족하다는 점을 해결하고자 합니다.#Review#VQA#Japanese#Document AI#Multimodal LLMs#Chart Understanding#Table Reasoning#Benchmark2026년 6월 1일댓글 수 로딩 중
[논문리뷰] 3DCodeBench: Benchmarking Agentic Procedural 3D Modeling Via Code본 논문은 현대 3D 생성 분야에서 Procedural Code 생성을 통한 모델링의 중요성이 커지고 있으나, 이를 객관적으로 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .#Review#3D Modeling#Procedural Generation#Vision-Language Models#Agentic Workflow#Benchmark#Human-Preference#Blender2026년 6월 1일댓글 수 로딩 중
[논문리뷰] LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis실제 데이터 분석은 단일 단계가 아닌, 긴 세션 동안 상태가 지속적으로 축적되고 변화하는 반복적 과정입니다. 그러나 기존 데이터 분석 벤치마크는 주로 독립적이거나 짧은 인터랙티브 작업만을 평가하여, 복잡한 분석 세션 속에서 상태를 추적하고 수정하는 에이전트의 능력을 충분히 테스트하지 못합니다 .#Review#Agentic Data Analysis#Long-Horizon#State Management#Benchmark#LLM Agents#State-Evolution2026년 5월 31일댓글 수 로딩 중
[논문리뷰] Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting본 논문은 기존의 MTSF 연구가 개별 모델을 복잡한 'Holistic Model'로 간주하여 평가함에 따라, 내부 핵심 메커니즘의 개별적인 성능 기여도가 불분명하다는 문제를 제기합니다 .#Review#Component-level Analysis#Benchmark#Time Series Forecasting#MTSF#AutoML#Zero-shot#Performance Corpus2026년 5월 31일댓글 수 로딩 중
[논문리뷰] OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants본 논문은 오디오-비주얼 스트리밍 환경에서 Omnimodal Large Language Models가 실시간으로 상호작용하는 능력을 평가하는 데 있어 기존 벤치마크들의 한계를 해결하고자 합니다.#Review#Omnimodal LLM#Streaming Interaction#Benchmark#Real-time AI#Full-duplex#Interaction-Aware Scoring2026년 5월 28일댓글 수 로딩 중
[논문리뷰] AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios기존 LLM 에이전트 연구들은 주로 단일 태스크 환경과 즉각적인 도구 응답을 가정하여 평가를 수행해왔습니다. 그러나 실제 환경에서는 도구 호출 시 지연 시간(latency)이 발생하며, 여러 태스크를 동시에 처리해야 하는 상황이 빈번합니다.#Review#Asynchronous Tool Calling#Multi-task Scenarios#LLM Agent#Temporal Coordination#Latency#Benchmark2026년 5월 28일댓글 수 로딩 중
[논문리뷰] VibeSearchBench: Benchmarking Long-horizon Proactive Search in the Wild본 논문은 LLM 기반 에이전트가 기존 벤치마크에서는 높은 성능을 보임에도 불구하고, 실사용 환경에서는 사용자 만족도가 낮은 'Evaluation–Experience Gap' 문제를 해결하고자 한다.#Review#VibeSearch#Proactive Search#Large Language Models#Agent Harness#Knowledge Graph#Benchmark2026년 5월 27일댓글 수 로딩 중
[논문리뷰] SpatialBench: Is Your Spatial Foundation Model an All-Round Player?본 논문은 현재 Spatial Foundation Models (SFMs)이 standard dataset에서 인상적인 성능을 보여주지만, 다양한 downstream task, 임의의 viewpoint, 변화하는 scene domain, 다양한 input density, 그리고 특정 hardware constraint에 걸쳐 robust하게 generalizing할 수 있는 all-round player인지에 대한 근본적인…#Review#Spatial Foundation Models#3D Reconstruction#Benchmark#Domain Generalization#Input Density#Embodied AI2026년 5월 26일댓글 수 로딩 중
[논문리뷰] LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV본 논문은 기존 Audio-Visual Generation 벤치마크가 Minute-Scale Content의 평가 요구사항을 충족하지 못하는 문제를 해결하고자 한다.#Review#Audio-Visual Generation#Long Video Generation#Evaluation#Benchmark#T2AV#I2AV#V2AV#MLLM-assisted assessment2026년 5월 26일댓글 수 로딩 중
[논문리뷰] WBench: A Comprehensive Multi-turn Benchmark for Interactive Video World Model Evaluation최근 Interactive World Models의 발전에도 불구하고, 기존의 평가 방식은 단편적이며 체계적인 평가를 위한 통합된 표준이 부재하다.#Review#Interactive World Models#Video Generation#Benchmark#Multi-turn Interaction#Evaluation Metrics2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World현재 Large Language Model(LLM) 기반 agent 시스템은 user의 digital world 중 매우 제한적인 부분에만 접근하여 context-sensitive reasoning과 효과적인 assistance 제공에 심각한 한계를 보입니다.#Review#Personal Assistant Agents#Benchmark#Context-Aware Reasoning#Multi-device Interaction#Proactive Assistance#Long-horizon Event Streams#LLM Agents#Digital World2026년 5월 25일댓글 수 로딩 중
[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.#Review#Proactive Personal Assistant Agents#Long-Horizon Workflows#Hidden Intents#Benchmark#Task Completion#Agentic Workflow2026년 5월 21일댓글 수 로딩 중
[논문리뷰] TransitLM: A Large-Scale Dataset and Benchmark for Map-Free Transit Route Generation본 논문은 기존의 대중교통 경로 계획 시스템이 복잡한 맵 인프라와 외부 라우팅 엔진에 과도하게 의존하고 있다는 문제점을 해결하고자 한다. 일반적인 LLM은 경로 계획의 기본이 되는 위상 구조를 제대로 이해하지 못해 환각(hallucination)을 일으키거나 연결이 끊긴 경로를 생성하는 한계를 보인다.#Review#TransitLM#Route Generation#Map-Free#Large Language Model#Continual Pre-Training#Urban Mobility#Benchmark2026년 5월 21일댓글 수 로딩 중
[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.#Review#TerminalWorld#Autonomous Agents#Benchmark#CLI#Data Engine#Reverse-Engineering#Docker2026년 5월 21일댓글 수 로딩 중
[논문리뷰] OmniPro: A Comprehensive Benchmark for Omni-Proactive Streaming Video Understanding본 논문은 Omni-modal Large Language Models(MLLMs)의 발전에도 불구하고, 실제 환경에서의 Proactive 스트리밍 이해 능력을 정밀하게 평가할 수 있는 표준화된 벤치마크가 부재하다는 문제점을 해결하고자 합니다 .#Review#Omni-proactive streaming#Video understanding#Benchmark#Multimodal LLMs#Audio-visual perception#Long-horizon evaluation2026년 5월 21일댓글 수 로딩 중
[논문리뷰] LLMEval-Logic: A Solver-Verified Chinese Benchmark for Logical Reasoning of LLMs with Adversarial Hardening본 논문은 LLM의 자연어 논리 추론 능력을 평가하는 기존 벤치마크들이 겪고 있는 한계를 극복하기 위해 LLMEval-Logic을 제안한다 .#Review#LLM#Logical Reasoning#Benchmark#Z3#Adversarial Hardening#NL-to-FL2026년 5월 20일댓글 수 로딩 중
[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.#Review#GUI Agents#Media Post-Production#Benchmark#Multimodal#Long-Horizon#Grounding#Vibe Cutting2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Omni-DuplexEval: Evaluating Real-time Duplex Omni-modal Interaction본 논문은 현대의 MLLM이 실시간 환경에서의 상호작용 능력을 평가할 수 있는 표준화된 벤치마크와 평가 방법론이 부족하다는 문제점을 지적합니다.#Review#Multimodal Large Language Models#Real-time Duplex Interaction#Streaming Video Understanding#Benchmark#Proactive Interaction2026년 5월 19일댓글 수 로딩 중
[논문리뷰] MSAVBench: Towards Comprehensive and Reliable Evaluation of Multi-Shot Audio-Video Generation본 논문은 현대의 영상 생성 기술이 단일 샷(single-shot)에서 다중 샷(multi-shot) 이야기 구조로 진화함에 따라 발생하는 모델 평가의 한계를 극복하고자 한다.#Review#Multi-Shot Audio-Video Generation#Benchmark#Evaluation Framework#Adaptive Hybrid Evaluation#Cinematic Language2026년 5월 19일댓글 수 로딩 중
[논문리뷰] TOBench: A Task-Oriented Omni-Modal Benchmark for Real-World Tool-Using Agents본 논문은 실세계의 복잡한 전문 워크플로우를 수행하는 Agent의 능력과 이를 평가하는 기존 벤치마크 사이의 격차를 해소하고자 합니다.#Review#Agentic AI#Omni-modal#Tool-using Agents#Model Context Protocol#Closed-loop Verification#Benchmark2026년 5월 18일댓글 수 로딩 중
[논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?본 논문은 현대 의료 운영 시스템의 핵심 워크플로우인 사전 승인(Prior Authorization), 이용 관리(Utilization Management), 케어 관리(Care Management)를 자동화하려는 AI 에이전트들의 실질적인 한계를 규명합니다.#Review#Healthcare AI#AI Agents#Policy-Rich Workflows#Long-Horizon#Benchmark#Managed-Care Operations#Model Context Protocol2026년 5월 18일댓글 수 로딩 중
[논문리뷰] MemLens: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models본 연구는 LVLM과 Memory-Augmented Agents 간의 기억 능력을 체계적으로 비교할 수 있는 표준화된 벤치마크의 부재를 해결합니다. 기존의 장기 문맥 벤치마크는 주로 텍스트 기반이거나 시각적 정보의 필요성이 낮아 진정한 다중 모달 추론 능력을 검증하지 못한다는 한계가 있습니다.#Review#Multimodal Memory#Large Vision-Language Models#Long-Context#Benchmark#Retrieval-Augmented Generation#Multi-Session Reasoning2026년 5월 14일댓글 수 로딩 중
[논문리뷰] ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes본 논문은 현대의 멀티모달 모델들이 이미지를 코드로 변환하는 능력을 평가할 때 발생하는 벤치마크 오염과 고정된 데이터셋의 한계를 해결하기 위해 ShapeCodeBench를 제안합니다. 기존 연구들은 결정론적 실행이나 정밀한 난이도 제어가 부족하여 모델의 실패 원인을 명확히 진단하기 어렵다는 문제가 있었습니다.#Review#Perception-to-Program Reconstruction#Benchmark#Synthetic Data#Renewable Evaluation#Multimodal Models#DSL2026년 5월 13일댓글 수 로딩 중
[논문리뷰] PresentAgent-2: Towards Generalist Multimodal Presentation Agents본 논문은 기존의 문서 기반 프레젠테이션 자동화 도구가 가지는 제약을 극복하고, 사용자의 오픈 엔드 쿼리로부터 직접적인 프레젠테이션 영상을 생성하는 시스템을 목표로 한다.#Review#Multimodal Agent#Presentation Generation#Deep Research#Interactive Delivery#Dynamic Media#Benchmark2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling본 논문은 최신 이미지 편집 모델의 발전 속도에 비해 기존 벤치마크가 갖는 평가 신뢰성 부족과 RL 최적화 설정의 비현실성 문제를 해결하고자 한다. 기존 연구들은 태스크 난이도가 낮거나 평가 방식이 지나치게 단편적이어서, frontier 모델들의 세밀한 성능 차이를 구분하는 데 한계가 있다.#Review#Image Editing#Reward Modeling#Benchmark#Multimodal Large Language Models#Reinforcement Learning#Visual Reasoning2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values본 연구는 autonomous agents의 가치 체계가 기반이 되는 LLM의 가치와는 본질적으로 다르며, 이를 체계적으로 평가할 수 있는 도구가 부재하다는 문제 의식에서 출발합니다. 기존의 ValueBench나 ValueCompass와 같은 연구들은 주로 정적인 텍스트 생성 모델의 가치 평가에만 국한되어 있습니다.#Review#Autonomous Agents#Value Alignment#Benchmark#Agentic Modality#Harness Alignment#Skill Steering2026년 5월 12일댓글 수 로딩 중
[논문리뷰] Beyond Retrieval: A Multitask Benchmark and Model for Code Search코드 검색 벤치마크 분야는 데이터 오염, 평가 지표의 단일성, 그리고 실제 배포 환경과 괴리된 평가 방식으로 인해 정교한 모델 성능 측정이 어렵습니다.#Review#Code Search#Benchmark#Reranker#Data Contamination#Retrieval-Augmented Generation#Code LLM2026년 5월 10일댓글 수 로딩 중
[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다.#Review#AI Agents#Workspace Learning#Benchmark#File Dependency#Large-Scale#Autonomous Agent#Task-File-Driven2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO본 연구는 LLM 기반 Agent 생태계에서 Skill이 범람함에도 불구하고, 개별 개발자가 특정 목적 위주로 설계하여 기능적 파편화(Fragmentation)와 커버리지 부족 문제를 겪고 있는 현실을 해결하고자 합니다 .#Review#Large Language Model#Agent#Skill Self-Evolution#GRPO#Benchmark#Automation2026년 5월 5일댓글 수 로딩 중
[논문리뷰] PatRe: A Full-Stage Office Action and Rebuttal Generation Benchmark for Patent Examination본 논문은 기존 특허 관련 연구가 특허 심사를 단순한 이진 분류(Acceptance Prediction)나 정적인 정보 추출 문제로만 취급하여 실제 현장의 반복적이고 상호작용적인 심사 과정을 반영하지 못한다는 한계를 해결하고자 한다.#Review#Patent Examination#Office Action Generation#Rebuttal Generation#Large Language Models#Legal Reasoning#Benchmark2026년 5월 5일댓글 수 로딩 중
[논문리뷰] ESARBench: A Benchmark for Agentic UAV Embodied Search and Rescue본 논문은 기존의 UAV SAR 연구들이 전통적인 비전 및 경로 계획 방식에 국한되어 있어, 복잡한 환경에서의 자율적 의사결정 능력을 평가할 통합된 벤치마크가 부족하다는 점을 지적합니다.#Review#Embodied AI#Search and Rescue (SAR)#UAV#Multimodal Large Language Models (MLLMs)#Simulation Platform#Benchmark2026년 5월 5일댓글 수 로딩 중
[논문리뷰] A Benchmark for Interactive World Models with a Unified Action Generation Framework본 논문은 대규모 데이터셋과 통합된 벤치마크의 부재로 인해 interactive world model의 물리적 상호작용 능력을 객관적으로 평가하기 어렵다는 문제를 해결하고자 합니다.#Review#Interactive World Models#Benchmark#Action Generation Framework#Embodied Intelligence#Trajectory Following#Memory Ability2026년 5월 5일댓글 수 로딩 중
[논문리뷰] PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments본 논문은 기존 의료용 AI 벤치마크들이 정적 지식 회상이나 단일 단계 작업에 국한되어, 실제 의료 현장에서 요구되는 복합적이고 긴 호흡의 임상 워크플로우를 평가하지 못하는 한계를 해결하고자 한다.#Review#LLM Agents#EHR#Benchmark#FHIR#Clinical Workflows#Agentic Evaluation#Long-horizon Tasks2026년 5월 4일댓글 수 로딩 중
[논문리뷰] WorldMark: A Unified Benchmark Suite for Interactive Video World Models저자들은 Interactive I2V 모델들을 위한 최초의 표준화된 벤치마크인 WorldMark를 제안합니다. 이 프레임워크의 핵심은 모델별 제어 방식을 WASD 표준 액션으로 변환하는 Unified Action-mapping Adapter를 통해 6개 주요 모델을 동일 조건에서 비교하는 것입니다.#Review#Interactive World Models#Image-to-Video#Benchmark#Unified Control Interface#World Consistency#Cross-Model Evaluation2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts본 논문은 EEG foundation models가 실제 임상 환경에서 직면하는 심각한 Distribution Shift 문제를 해결하고자 합니다.#Review#Test-Time Adaptation#EEG Foundation Models#Distribution Shift#Benchmark#NeuroAdapt-Bench#T3A2026년 4월 23일댓글 수 로딩 중
[논문리뷰] Exploring Spatial Intelligence from a Generative Perspective본 논문은 MLLM의 공간 지능이 주로 Understanding 관점에서만 연구되어 왔다는 한계점에 주목합니다.#Review#Generative Spatial Intelligence#Multimodal Large Language Models#Image Editing#Benchmark#Sim-to-Real Transfer2026년 4월 22일댓글 수 로딩 중
[논문리뷰] MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge본 연구는 29개의 기존 데이터셋에서 추출한 1,804개의 샘플을 바탕으로 9가지 유형의 편향을 분석하는 MM-JudgeBias 벤치마크를 구축하였다. 제안된 프레임워크는 각 샘플에 대해 편향되지 않은(unbiased) triplet과 편향을 주입한(biased) triplet을 생성하여 평가 결과의 차이를 비교한다.#Review#Multimodal Large Language Models#MLLM-as-a-Judge#Compositional Bias#Benchmark#Bias-Deviation#Bias-Conformity2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers본 논문은 코드 스위칭 검색 시스템의 성능 평가를 위해 인간이 주석을 단 CSR-L 벤치마크를 구축하고, 11개 작업을 포함하는 CS-MTEB를 통해 그 영향력을 정량적으로 분석하였다. 실험 결과, 쿼리 내 코드 스위칭만으로도 강력한 다국어 모델을 포함한 대부분의 시스템에서 유의미한 성능 저하가 발생함이 확인되었다.#Review#Information Retrieval#Code-Switching#Benchmark#Embedding Models#Robustness#Late-Interaction#Lexicon-Based Adaptation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.#Review#Agentic Workflow#Benchmark#Large Language Models#Visual Programming#Executable Workflow#Task Automation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects본 논문은 AI 비디오 편집 시스템의 품질을 다차원적으로 객관적이고 표준화하여 평가할 수 있는 체계의 부재 문제를 해결한다. 기존의 비디오 생성 평가 모델들은 편집 특유의 요구사항인 '의도한 편집의 수행 여부'와 '편집 대상 외 영역의 보존 여부'를 충분히 고려하지 못하는 한계가 있다.#Review#Video Editing#Reward Model#Benchmark#Instruction Following#Human Alignment2026년 4월 19일댓글 수 로딩 중
[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.#Review#AI Agents#Language World Models#Professional Tasks#Environmental Robustness#Fault Injection#Benchmark2026년 4월 15일댓글 수 로딩 중
[논문리뷰] GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents본 연구는 Multimodal Large Language Model(MLLM) 기반 게임 에이전트의 체계적인 평가를 가로막는 표준화된 인터페이스의 부재와 검증 방식의 한계를 극복하기 위해 수행되었습니다.#Review#Multimodal Large Language Model#Game Agent#Benchmark#Standardized Evaluation#Computer-Use Agent#Semantic Action Parsing#Outcome-based Evaluation2026년 4월 15일댓글 수 로딩 중
[논문리뷰] Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces본 논문은 기존 사용자 시뮬레이션 연구가 isolated scenario에 국한되거나 synthetic data에 의존하여 인간 행동의 전체적(holistic) 특성을 파악하지 못하는 문제를 해결하고자 한다.#Review#Large Language Models#User Simulation#Human Behavior Modeling#Long-horizon#Cross-scenario#Benchmark2026년 4월 9일댓글 수 로딩 중
[논문리뷰] ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models본 논문은 LLM 에이전트의 기억 능력을 평가하는 기존 벤치마크들이 '명시적 기억(Explicit memory)'의 회상 능력에만 편중되어 있다는 점을 지적한다.#Review#Implicit Memory#LLM Agents#Procedural Memory#Priming#Classical Conditioning#Benchmark#Behavioral Adaptation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] DeonticBench: A Benchmark for Reasoning over Rules본 논문은 LLM이 자연어로 된 법령과 사실 관계를 Prolog 코드로 변환하여 심볼릭 솔버를 통해 해답을 도출하는 '솔버 지원 워크플로우'를 핵심 방법론으로 제안합니다. 평가를 위해 미국 연방 세금, 항공사 수하물 정책, 이민 행정, 주택법 등 4개 영역 6,232개의 태스크로 구성된 DEONTICBENCH를 구축하였습니다.#Review#Deontic Reasoning#LLM#Symbolic Computation#Prolog#Benchmark#High-stakes#Rule-based Reasoning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.#Review#Video Understanding#Multimodal Large Language Models#Benchmark#Reasoning Coherence#Capability Consistency#Evaluation Hierarchy#Non-linear Scoring2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.#Review#Autonomous Agents#Benchmark#Trajectory-aware Grading#Safety Evaluation#Robustness Testing#Multimodal Perception2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .#Review#Image Spatial Editing#Benchmark#Dataset#Geometry-Aware Evaluation#Camera Manipulation#Object Manipulation#Multimodal Large Models2026년 4월 6일댓글 수 로딩 중
[논문리뷰] FileGram: Grounding Agent Personalization in File-System Behavioral Traces본 논문은 AI 에이전트가 개인화된 파일 시스템 환경에서 사용자와 원활히 협업하기 위해 필요한 행동 적응 능력의 부재 문제를 해결합니다. 기존 연구들은 주로 대화 기반의 요약에 의존하거나, 고립된 환경 내의 GUI 성공 여부만을 평가함으로써 사용자의 장기적인 행동 패턴을 파악하는 데 한계를 보입니다 .#Review#Agent Personalization#File-System Behavioral Traces#Memory Framework#Multimodal Grounding#Benchmark2026년 4월 6일댓글 수 로딩 중
[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.#Review#AI Agents#Benchmark#Information Environments#Multi-source Reasoning#Belief Revision#Implicit Personalization2026년 4월 6일댓글 수 로딩 중
[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.#Review#Computer-Use Agents#Agent Safety#Benchmark#Harmful Behavior#Trajectory-level Evaluation#Multi-step Reasoning2026년 4월 5일댓글 수 로딩 중
[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification본 논문은 현재의 Video MLLM 평가 방식이 답변의 정성적 정확도에만 치중하여 실제적인 시공간적 추론 역량을 제대로 측정하지 못한다는 문제를 지적한다. 기존 벤치마크들은 고득점을 기록하지만, 모델이 정답을 도출하기 위해 필요한 핵심적인 시각적 증거를 정확하게 탐색하고 활용하는지 검증하지 못한다 .#Review#Video MLLM#Spatio-Temporal Grounding#Benchmark#Long-Video Understanding#Evidence Verification#Atomic Ability2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios본 논문은 기존의 Document Parsing 벤치마크들이 대부분 영어 중심의 디지털 문서에 국한되어 있어, 다국어 및 실제 촬영된 문서 환경에서의 성능을 평가하는 데 한계가 있다는 문제를 지적합니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting Benchmark시계열 예측 분야는 데이터 규모와 품질의 부족으로 인해 모델 평가의 신뢰성 위기에 직면해 있다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가#SGLang#NPU#Ascend#Ring-SP#Benchmark2026년 4월 1일댓글 수 로딩 중
[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.#Ultralytics#YOLO26#SAM-2#Benchmark#Documentation2026년 3월 31일댓글 수 로딩 중
[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.#Ultralytics#YOLO26#SAM#Benchmark#Segmentation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language ModelsLLM의 CoT는 모델의 해석 가능성과 안전한 모니터링을 위한 강력한 도구로 활용되지만, 최근 CoT와 최종 출력 간의 인과적 불일치(Unfaithful CoT) 문제가 지적되고 있습니다.#Review#Large Language Models#Chain-of-Thought#Monitorability#Benchmark#AI Safety#Stress-Test#Faithfulness2026년 3월 31일댓글 수 로딩 중
[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .#Review#Image Generation#Image Editing#Benchmark#Human Evaluation#Explainable AI#Multimodal Learning2026년 3월 30일댓글 수 로딩 중
[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image Editing최근 Instruction-based image editing 모델은 비약적으로 발전했으나, 기존 평가 프레임워크는 이를 따라가지 못하고 있습니다. 대부분의 벤치마크는 정의된 태스크 범위가 좁아 실제 환경의 일반화 능력을 평가하기 어렵습니다.#Review#Image Editing#Benchmark#Visual Consistency#Pairwise Evaluation#Human-Aligned#VLM-as-a-Judge2026년 3월 30일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.#SGLang#CI#Benchmark#GB300#Blackwell#NeMo Skills#VLM2026년 3월 29일댓글 수 로딩 중
[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation최근 multi-reference image generation 시스템은 하나의 이미지 내에서 여러 entity를 세밀하게 제어하는 기능에 대한 기대를 높이고 있다.#Review#Multi-subject Generation#Attribute Misbinding#Image Generation#Benchmark#Evaluation Protocol#Deep Learning#Computer Vision2026년 3월 24일댓글 수 로딩 중
[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다#Gradio#Profiling#Benchmark#Observability2026년 3월 24일댓글 수 로딩 중
[논문리뷰] ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models본 논문은 MLLM이 어려운 시각 태스크에서 사용자에게 단순한 도움을 먼저 요청할 수 있는 'Proactiveness'를 갖췄는지 평가하기 위해 7개 데이터셋을 재구성한 ProactiveBench를 제안하고, 22개 MLLM을 분석합니다.#Review#MLLM#Benchmark#Proactiveness#Reinforcement Learning#Multimodal Reasoning#Human-AI Interaction2026년 3월 22일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining최근 MLLMs는 External Tools와의 통합을 통해 Agentic Problem Solvers로 발전하고 있으나, 복잡한 Visual Tasks를 위해 다양한 도구를 정확하게 실행하고 효과적으로 조합하는 데 지속적인 병목 현상(persistent bottleneck)을 겪고 있습니다.#Review#Multimodal Large Language Models#Visual Tool Chaining#Agentic Models#Benchmark#OpenCV#Compositional Reasoning#Tool-use Evaluation2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol UnderstandingMultimodal Large Language Models (MLLMs)는 자연스러운 장면 해석에서 놀라운 성공을 거두었지만, 인간 인지의 기본 구성 요소인 Discrete Symbols 처리 능력은 여전히 중요한 미해결 과제로 남아 있습니다.#Review#Multimodal Large Language Models (MLLMs)#Discrete Symbols#Cognitive Mismatch#Symbol Understanding#Benchmark#Recognition-Reasoning Inversion#Human Cognition2026년 3월 19일댓글 수 로딩 중
[논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMsLarge Language Models (LLMs)는 User Preferences를 Persistent Memory에 저장하여 여러 Interaction에서 Personalization을 지원하고 있습니다.#Review#Large Language Models#Personalization#Persistent Memory#Context-Awareness#Preference Selectivity#Benchmark#Misapplication Rate#Appropriate Application Rate2026년 3월 18일댓글 수 로딩 중
[논문리뷰] SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models기존의 OLM Benchmark들은 주로 static, accuracy-centric 한 이해(understanding) Task에 초점을 맞추고 있어, 자연스러운 대화에서 Dynamic한 Cues를 탐색하는 Social Interactivity의 핵심 역량을 충분히 평가하지 못하고 있습니다.#Review#Omni-modal LLMs#Social Interactivity#Benchmark#Speaker Identification#Turn-taking#Interruption Generation#Audio-Visual Integration2026년 3월 17일댓글 수 로딩 중
[논문리뷰] AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using AgentsLLMs가 tool-using agent로 발전하면서 외부 환경과 상호작용하는 능력은 크게 향상되었지만, long-horizon 상호작용에서는 여전히 취약합니다.#Review#Large language models#Process reward models#Tool-using agents#Step-level evaluation#Agent trajectories#Benchmark2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document CollectionsMultimodal Agent는 복잡한 문서 기반 워크플로우를 자동화하는 유망한 방향을 제시하지만, 이러한 Agent가 진정한 Strategic Reasoning 을 보여주는지, 아니면 단지 Stochastic Trial-and-error Search 에 의존하는지에 대한 근본적인 의문이 존재했습니다.#Review#Multimodal Agents#Document QA#Agentic Reasoning#RAG#Benchmark#PDFs#Effort Calibration2026년 3월 12일댓글 수 로딩 중
[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMs이 논문은 MLLMs 가 STEM (과학, 기술, 공학, 수학) 분야에서 시각적 추론에 실패하는 근본적인 원인이 인지 능력 부족인지 추론 능력 부족인지를 규명하는 데서 출발합니다. 연구의 핵심 목표는 MLLMs 의 시각적 인지 능력을 체계적으로 향상시키기 위해 실행 가능한 코드를 강력한 인지 매체로 확립하는 것입니다.#Review#Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning#Code-Grounded Perception#Image-to-Code Translation#Data Generation#Benchmark#Reinforcement Learning#Matplotlib2026년 3월 11일댓글 수 로딩 중
[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?기존 VLM 벤치마크들이 대부분 크고 명확한 시각적 차이에 집중하고 특정 도메인에 국한되어 미묘한 비교 추론 능력을 평가하기 어렵다는 문제점을 해결하고자 합니다.#Review#Vision-Language Models#Comparative Reasoning#Subtle Differences#Benchmark#Multi-modal AI#Image Comparison#VQA#Fine-grained Analysis2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.#Review#Spatial Intelligence#Vision-Language Models#Sports Analytics#3D Reconstruction#Dataset#Benchmark#Racket Sports#Human-Centric AI2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants본 논문은 LLM이 정적 텍스트 응답을 넘어 동적이고 인터랙티브한 HTML 기반 애플리케이션(MINIAPPS) 을 생성하는 능력에 대한 평가 공백을 해결하고자 합니다. 기존 벤치마크는 알고리즘 정확성이나 정적 레이아웃에 집중하여, LLM이 실세계 원칙에 부합하는 상호작용 로직 을 구성하는 역량을 포착하지 못합니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-Following현재 Speech Large Language Models (SLLMs) 평가 시 주로 사용되는 텍스트 프롬프트의 한계를 극복하고, 현실적인 음성 기반 명령어 환경 에서 SLLM의 성능을 평가할 수 있는 데이터셋을 구축하는 것이 목표입니다.#Review#Speech Language Models#Instruction Following#Multilingual Dataset#Spoken Prompts#Benchmark#SLLM Evaluation#Prompt Diversity2026년 3월 10일댓글 수 로딩 중
[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents현재 명시적 지시에만 반응하는 GUI 에이전트 의 한계를 극복하고, 사용자의 암묵적인 의도를 연속적인 시각 입력(스크린샷)으로부터 예측 하여 시기적절한 추천을 제공하는 능동형(Proactive) AI 비서 를 개발하는 것을 목표로 합니다.#Review#Proactive Agents#GUI Automation#Intent Recommendation#Multimodal LLMs#Benchmark#Memory-aware Framework#Human-Computer Interaction2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMs대규모 언어 모델(LLM)이 수만 단어에 달하는 장편 서사를 생성할 수 있게 되었지만, 설정된 사실, 캐릭터 특성, 세계 규칙 등 전반적인 일관성을 유지하는 데 실패하는 문제를 해결하는 것이 목표입니다. 기존 스토리 생성 벤치마크가 플롯 품질과 유창성에만 초점을 맞추어 일관성 오류가 간과되는 한계를 극복하고자 합니다.#Review#Large Language Models (LLMs)#Story Generation#Narrative Consistency#Benchmark#Automated Evaluation#Error Analysis#Long-Form Text Generation#Consistency Error Density (CED)2026년 3월 9일댓글 수 로딩 중
[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies본 논문은 장기적이고 이력 의존적인 로봇 조작 태스크에서 메모리 기반의 Vision-Language-Action (VLA) 모델 의 체계적인 평가 및 발전을 위한 표준화된 벤치마크를 구축하는 것을 목표로 합니다. 기존 메모리 메커니즘 평가의 비표준화된 환경과 제한적인 이해를 개선하고자 합니다.#Review#Robotics#Memory#Benchmark#Manipulation#Vision-Language-Action Models#Temporal Memory#Spatial Memory#Procedural Memory2026년 3월 8일댓글 수 로딩 중
[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal Agents#Visual Reasoning#Tool Use#Benchmark#Long-Horizon Tasks#Realistic Scenarios#Agentic Intelligence2026년 3월 5일댓글 수 로딩 중
[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration기존 벤치마크들이 정적이고 단발적인 기능적 정확성 평가에 치중하여 실제 소프트웨어 개발의 복잡한 요구사항 변화와 장기적인 기능 반복을 포착하지 못하는 문제를 해결하는 것이 목표입니다.#Review#LLM Agents#Software Engineering#Code Maintenance#Continuous Integration#Benchmark#Code Generation#Long-term Evaluation#Technical Debt2026년 3월 4일댓글 수 로딩 중
[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMs대부분의 Multimodal Large Language Models (MLLMs)이 오프라인 패러다임으로 작동하여 실시간 상호작용 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Real-time Interaction#Video Understanding#Benchmark#Temporal Reasoning#Long-term Memory#Proactive Response2026년 3월 4일댓글 수 로딩 중
[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?이 논문은 통합 멀티모달 모델에서 생성(generation) 능력이 이해(understanding) 능력을 향상시키는지, 그리고 언제, 어떤 방식으로 향상시키는지 에 대한 불확실성을 해결하고자 합니다.#Review#Unified Multimodal Models#Multimodal Understanding#Generation-to-Understanding#Benchmark#Vision-Language Models#Generate-then-Answer#Model Evaluation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning본 논문은 실생활 시나리오에서 멀티모달 대규모 언어 모델(MLLM) 의 다양한 다중 이미지 추론 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Multi-Image Analysis#Real-life Scenarios#Benchmark#MLLMs Evaluation#Chain-of-Thought#Reasoning Types2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAG법률 RAG 시스템의 종단 간(end-to-end) 성능을 평가하기 위한 고품질 벤치마크 및 평가 방법론이 부족하다는 문제점을 해결하고자 합니다.#Review#Retrieval-Augmented Generation (RAG)#Legal AI#Benchmark#Evaluation Methodology#Embedding Models#Large Language Models (LLMs)#Error Decomposition#Information Retrieval2026년 3월 2일댓글 수 로딩 중
[Ray Serve] Controller 마이크로벤치마크 공식 추가Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.#Ray#Python#Performance#Benchmark#Serve2026년 3월 1일댓글 수 로딩 중
[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model현재 Instruction-based Image Editing Models (IIEMs)가 작은 객체 편집에서 성능이 충분히 탐구되지 않았음을 지적하며, 정확한 로컬 편집 및 세부사항 개선 을 위한 IIEMs의 작은 객체 편집 능력 을 평가하는 전용 벤치마크를 구축하는 것을 목표로 합니다.#Review#Image Editing#Instruction-based Models#Small Object Editing#Benchmark#Evaluation Metrics#Large Multimodal Models (LMMs)#Visual Consistency2026년 3월 1일댓글 수 로딩 중
[논문리뷰] CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era대규모 언어 모델(LLM)이 생성하는 그럴듯하지만 실제로는 존재하지 않는 참고문헌 환각(hallucinated references) 문제를 해결하는 것을 목표로 합니다.#Review#LLM Hallucination#Citation Verification#Multi-Agent System#Benchmark#Fact Checking#Scientific Integrity#Information Retrieval#Qwen3-VL2026년 3월 1일댓글 수 로딩 중
[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI Agents본 연구는 현재 바이모달 상호작용에 국한된 멀티모달 LLM의 한계를 넘어, 인간의 지능처럼 영상, 오디오, 이미지 모달리티 전반에 걸쳐 통합적으로 인지하고 추론하며 외부 도구를 사용하는 네이티브 옴니모달 AI 에이전트 를 개발하고 평가하는 것을 목표로 합니다.#Review#Omni-modal AI#Multi-modal Agents#Tool-Integrated Reasoning#Benchmark#Event Graph#Active Perception#Trajectory Synthesis#DPO2026년 2월 26일댓글 수 로딩 중
[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces본 논문은 기존 벤치마크의 한계(짧은 태스크 범위, 데이터 오염, 미흡한 평가 지표)를 극복하고, 명령줄 인터페이스(CLI) 환경 에서 에이전트 기반 프로그래밍의 장기적인 계획 및 실행 능력 을 엄격하게 평가할 수 있는 종합 벤치마크인 LongCLI-Bench 를 제안하는 것을 목표로 합니다.#Review#Agentic Programming#CLI#Benchmark#Long-horizon Tasks#Code Generation#LLM Evaluation#Human-Agent Collaboration#Software Engineering2026년 2월 24일댓글 수 로딩 중
[논문리뷰] A Very Big Video Reasoning Suite본 논문은 비디오 모델의 시각적 품질 향상에 비해 미개척된 추론 능력 을 체계적으로 연구하기 위한 기반을 마련하는 것을 목표로 합니다. 특히, 대규모의 다양하고 검증 가능한 비디오 추론 학습 데이터의 부족과 신뢰할 수 있는 평가 프레임워크의 부재 문제를 해결하고자 합니다.#Review#Video Reasoning#Large-scale Dataset#Benchmark#Cognitive Architecture#Scaling Studies#Video Generation#Generalization#Rule-based Evaluation2026년 2월 23일댓글 수 로딩 중
[faster-qwen3-tts] 모드 간 성능 동등성 검증 및 벤치마크 비교 문서화VoiceClone, CustomVoice, ICL 모드가 CUDA graph 캡처 후 동일한 성능을 보이는지 검증하고 벤치마크를 문서화한다#faster-qwen3-tts#TTS#Benchmark#Documentation2026년 2월 21일댓글 수 로딩 중
[faster-qwen3-tts] README 비스트리밍 RTF 수치 업데이트Jetson AGX Orin의 non-streaming RTF을 1.36에서 1.57로 업데이트하여 최신 벤치마크를 반영한다#faster-qwen3-tts#TTS#Documentation#Benchmark2026년 2월 20일댓글 수 로딩 중
[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.#Grafana Loki#Go#Performance#Encoding#Benchmark#Data Object2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성Jetson Thor 결과를 추가하고, streaming TTFA 측정 방식을 개선하며 블로그 포스트의 수치를 업데이트한다#faster-qwen3-tts#TTS#Benchmark#Jetson2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가NVIDIA Jetson Thor에서의 벤치마크 결과를 README와 블로그에 추가한다#faster-qwen3-tts#TTS#Benchmark#Jetson Thor2026년 2월 20일댓글 수 로딩 중
[논문리뷰] MAEB: Massive Audio Embedding Benchmark오디오 임베딩 모델의 평가 프로토콜이 파편화되어 모델 비교 및 의미 있는 진척도 추적에 어려움이 있는 문제를 해결하고자 합니다. 이를 위해 광범위하고 통일된 평가 프레임워크 인 MAEB(Massive Audio Embedding Benchmark) 를 구축하여 범용 오디오 임베딩 모델 개발을 촉진하는 것을 목표로 합니다.#Review#Audio Embedding#Benchmark#Multimodal#Zero-shot Classification#Clustering#Representation Learning#MTEB Ecosystem#Cross-modal Audio-Text#Multilingual Audio2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Learning Situated Awareness in the Real World본 논문은 기존의 멀티모달 파운데이션 모델(MFM) 벤치마크들이 환경 중심의 공간 관계에만 초점을 맞추고, 에이전트의 시점, 자세, 움직임에 따른 관찰자 중심의 상황 인식(situated awareness) 을 간과하는 문제점을 해결하고자 합니다.#Review#Situated Awareness#Egocentric Vision#Spatial Reasoning#Multimodal Foundation Models#Video Understanding#Benchmark#Real-world Data2026년 2월 18일댓글 수 로딩 중
[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI ResearchAI 시스템이 가설 제시, 실험 설계, 결과 검증, 신념 업데이트를 포함하는 폐쇄 루프(closed-loop) 연구 를 자율적으로 수행할 수 있는지 객관적으로 평가하는 벤치마크를 제시하는 것을 목표로 합니다. 기존 벤치마크의 한계인 비표준화된 비교와 과장된 능력 인식을 해소하고자 합니다.#Review#LLM Agents#AI Research#Benchmark#Closed-loop Research#Agent Evaluation#Reproducibility#Real-world Tasks2026년 2월 17일댓글 수 로딩 중
[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents기존 벤치마크의 제한적인 태스크 복잡도, 정보 검색 가능성, 평가 차원의 문제를 해결하여 멀티모달 웹 브라우징 에이전트의 심층 검색 역량을 포괄적으로 평가할 수 있는 새롭고 검증 가능한 벤치마크를 개발하는 것을 목표로 합니다.#Review#Multimodal LLMs#Web Browsing Agents#Deep Search#Benchmark#Tool Use#Process Evaluation#Multimodal Reasoning#Open-world QA2026년 2월 16일댓글 수 로딩 중
[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation Suite본 연구는 기존 통합 멀티모달 모델(UMM) 평가 벤치마크가 결정화된 지능(Crystallized Intelligence) 에 치우쳐 있음을 지적하며, 시각 생성 분야에서 생성 유동 지능(Generative Fluid Intelligence, GFI) 을 엄격하게 평가하는 것을 목표로 합니다.#Review#Generative Fluid Intelligence#UMM Evaluation#Visual Generation#Ad-hoc Reasoning#Contextual Adaptation#Benchmark#Attention Intervention2026년 2월 11일댓글 수 로딩 중
[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies이 논문은 LLM 기반 에이전트의 장기적인 계획 및 실행 능력을 평가하는 기존 프레임워크가 단기적이고, 도메인에 특화되어 있으며, 현실적인 경제 역학에 충분히 기반하지 못하는 문제를 해결하는 것을 목표로 합니다.#Review#LLM Evaluation#Long-Horizon Planning#Interactive Economies#Benchmark#Agentic AI#Economic Simulation#Plan-and-Execute2026년 2월 11일댓글 수 로딩 중
[Triton] grouped_gemm 벤치마크 min/max ms 반환 순서 수정perf_report에서 error bar가 뒤집히는 문제를 반환값 순서 교정으로 해결#Triton#Tutorial#Bug Fix#Benchmark2026년 2월 11일댓글 수 로딩 중
[논문리뷰] GISA: A Benchmark for General Information-Seeking Assistant기존 검색 에이전트 벤치마크들이 갖는 비현실적인 태스크 구성, 단일 정보 유형 집중, 정적 데이터로 인한 데이터 오염, 과정 수준 감독 부재 등의 한계를 극복하는 것을 목표로 합니다. 이를 위해 실제 정보 탐색 시나리오를 반영하고 심층 추론 및 광범위한 정보 통합을 지원하는 종합적인 벤치마크 GISA 를 제시합니다.#Review#Search Agents#Information Seeking#Benchmark#LLM-driven Agents#Human Trajectories#Deep and Wide Search#Deterministic Evaluation#Dynamic Evaluation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI Environments본 논문은 기존 이미지 생성 모델 벤치마크들이 GUI(Graphical User Interface) 환경에서의 상태 전환 및 시간적 일관성 평가에 미흡하다는 문제점을 제기합니다.#Review#GUI Generation#Image Generation Models#Benchmark#Temporal Coherence#Spatial Grounding#Evaluation Metric#Vision Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition본 논문은 기존 MLLM(Multimodal Large Language Models)이 정적이고 내부적인 지식에 의존하여 비디오를 이해하는 한계를 극복하고, 동적이고 새로운 컨텍스트에서 시연(demonstration)을 통해 학습하고 적응하는 능력을 평가하는 새로운 태스크인 Demo-driven Video In-Context Learning 을 제안합니다.#Review#Video Understanding#In-Context Learning#Procedural Knowledge#Multimodal LLMs#Benchmark#Direct Preference Optimization#Demonstration Selection2026년 2월 9일댓글 수 로딩 중
[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks본 논문은 통합 멀티모달 모델(UMMs)이 일상생활과 밀접한 컴퓨터 사용 계획 태스크(planning-oriented computer-use tasks)를 얼마나 잘 지원하는지 평가하는 것을 목표로 합니다.#Review#Multimodal Models#Image Generation#Image Editing#Benchmark#Computer-Use Tasks#Planning#Evaluation Metrics2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities본 논문은 대규모 언어 모델(LLM)이 새롭고 복잡한 과학 정보에 대해 추론하는 능력의 불확실성을 해결하는 것을 목표로 합니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?본 논문은 최신 비디오 생성 모델, 특히 Text-Image-to-Video (TI2V) 모델이 시각적 충실도를 넘어 암묵적인 세계 규칙을 내면화하고 추론하는 능력 을 평가하기 위한 선구적인 벤치마크인 RISE-Video 를 제시하는 것을 목표로 합니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] HY3D-Bench: Generation of 3D Assets3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.#Review#3D Generation#Dataset#Benchmark#AIGC#Watertight Mesh#Part-level Decomposition#Foundation Model#Robotics2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles현재 Deep Research Agents (DRAs) 의 평가 방식이 LLM 생성 참조 나 단순한 평가 기준으로 인해 전문가 검증의 신뢰성이 부족하고 세밀한 평가가 어렵다는 문제를 해결하고자 합니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models본 논문은 기존의 다중 모달 대규모 언어 모델(MLLM) 벤치마크가 시각 검색 중심적이지 않거나 지나치게 이상적인 검색 시나리오 에 의존하여 모델의 실제 시각 및 텍스트 검색 능력을 정확히 평가하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Deep Research#Benchmark#Visual Search#Textual Search#Cropped Search#Evaluation2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language Model본 논문은 추상적인 시각 정보와 시각적 기억을 요구하는 복잡한 인지 문제에서 멀티모달 대규모 언어 모델(MLLMs) 의 제한된 성능을 개선하는 것을 목표로 합니다. 인간의 시각 공간 스케치패드와 시각적 심상과 유사한 시각적 추론 메커니즘을 MLLM 에 부여하여 인지 능력 격차를 해소하고자 합니다.#Review#Multimodal Large Language Models#Cognitive Reasoning#Visual Imagery#Latent Representations#Reinforcement Learning#Visual Question Answering#Benchmark2026년 2월 2일댓글 수 로딩 중
[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance본 논문은 기존의 단편적인 테스트 생성 또는 오라클 예측을 넘어, 실제 개발 워크플로우에 필수적인 단위 테스트 스위트의 생성, 수정 및 업데이트 등 전반적인 유지보수 과정에서 대규모 언어 모델(LLMs) 의 성능을 종합적으로 평가하는 새로운 벤치마크인 TAM-Eval 을 제시합니다.#Review#LLM#Unit Test Maintenance#Software Engineering#Code Generation#Test Repair#Test Updating#Benchmark#Mutation Testing#Code Coverage2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models현재 Text-to-Image (T2I) 모델들이 복잡한 공간 관계(공간 인식, 추론, 상호작용) 처리에서 실패하는 한계를 해결하고, 기존의 짧고 정보 밀도가 낮은 프롬프트 기반 벤치마크의 부적합성을 극복하는 것을 목표로 합니다.#Review#Text-to-Image Models#Spatial Intelligence#Benchmark#Evaluation#Prompt Engineering#Multimodal LLMs#Fine-tuning#Spatial Reasoning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents이 논문은 AI 에이전트가 복잡한 다단계 정보 탐색 작업 에서 포괄적인 답변 목록 을 생성하는 능력을 평가하기 위한 새로운 벤치마크인 DeepSearchQA 를 소개합니다.#Review#AI Agents#Deep Research#Benchmark#Information Retrieval#Comprehensiveness#Multi-step Reasoning#Evaluation#LLM-as-a-Judge2026년 1월 29일댓글 수 로딩 중
[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.#Review#Long-Context LLMs#Autonomous Agents#Benchmark#Environment Rollouts#State Tracking#Tool Use#Memory Evaluation#Lateral Thinking Puzzles2026년 1월 29일댓글 수 로딩 중
[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking본 논문은 기존 벤치마크들이 다루지 못했던 시간-가변 오디오-비주얼 신호의 인간 문화적 맥락 이해 능력 을 평가하기 위해, MLLM(Multimodal Large Language Model) 의 맥락적, 문화적 지식 및 사고 능력 을 진단하는 새로운 벤치마크인 AVMeme Exam 을 제시합니다.#Review#Multimodal LLMs#Benchmark#Cultural Understanding#Contextual Inference#Audio-Visual Memes#Multilingual#Q&A Evaluation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.#Review#Multimodal Agents#Vision-Language Models (VLMs)#Interactive AI#Reinforcement Learning Environments#Benchmark#Decision-Making#Diagnostic Tools#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents본 논문은 기존 연구 에이전트 벤치마크들이 텍스트 전용 또는 짧은 형태의 멀티모달 질의응답에 초점을 맞춰, 멀티모달 증거를 활용한 종단 간 보고서 생성 능력을 평가하는 데 한계가 있음을 지적합니다.#Review#Multimodal Deep Research#Research Agents#Benchmark#Evaluation Framework#Retrieval-Augmented Generation#Large Multimodal Models#Visual Grounding#Citation Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents본 논문은 도구 사용 에이전트의 PRM (Process Reward Model) 평가를 위한 체계적이고 신뢰할 수 있는 벤치마크의 부재를 해결하고자 합니다.#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards2026년 1월 20일댓글 수 로딩 중
[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs기존 벤치마크들이 주로 회고적 이해에 초점을 맞추는 한계를 해결하기 위해, 오디오-비주얼 환경에서 멀티모달 대규모 언어 모델(MLLM)의 미래 사건 예측 능력 을 평가하는 것을 목표로 합니다. 특히, 모델이 교차 모달 인과 및 시간 추론 을 수행하고 내부 지식을 활용하여 미래 이벤트를 예측하는 능력을 평가하고자 합니다.#Review#Multimodal LLMs#Future Forecasting#Audio-Visual Reasoning#Benchmark#Instruction Tuning#Omni-Modal#Causal Reasoning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems본 논문은 대규모 언어 모델(LLM) 기반 에이전트가 물리적으로 제한된 실제 환경, 특히 다양한 목표와 엄격한 제약을 가진 우주 계획 문제(SPP) 에서 얼마나 효과적으로 계획하고 행동할 수 있는지 평가하는 것을 목표로 합니다.#Review#LLM Agents#Space Planning#Benchmark#Agentic Planning#Physics Constraints#Decision Making#Zero-Shot Learning2026년 1월 18일댓글 수 로딩 중
[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.#Grafana Loki#Go#Performance#Decoder#Memory Optimization#Benchmark2026년 1월 15일댓글 수 로딩 중
[Grafana Loki] 델타 디코더 벤치마크 개선 및 Decode 메서드 성능 측정 추가단일 값 decode 벤치마크를 배치 단위 Decode 메서드 벤치마크로 재작성하고, 처리량 메트릭과 errors.Is 최적화를 추가한 분석.#Grafana Loki#Go#Performance#Benchmark#Encoding2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning본 논문은 기존 비디오 질의응답 벤치마크의 한계, 즉 폐쇄된 증거 설정과 텍스트 기반 검색에 의존하는 문제점을 해결하고자 합니다.#Review#Video Question Answering#Open-domain Search#Multimodal LLMs#Agentic AI#Benchmark#Video Understanding#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.#Review#Generative World Models#Autonomous Driving#Video Generation#Benchmark#Evaluation Metrics#Trajectory Prediction#Temporal Consistency#Data Diversity2026년 1월 12일댓글 수 로딩 중
[논문리뷰] BabyVision: Visual Reasoning Beyond Language최신 멀티모달 대규모 언어 모델(MLLMs)이 고수준의 지식 기반 과제에서는 탁월하지만, 3세 아동도 쉽게 해결하는 기본적인 시각적 추론 과제에서 실패하는 근본적인 문제를 해결하고자 합니다.#Review#Multimodal LLMs#Visual Reasoning#Benchmark#Early Vision#Spatial Perception#Visual Tracking#Pattern Recognition#Generative Models2026년 1월 12일댓글 수 로딩 중
[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.#Ray#Python#Performance#Benchmark#Training2026년 1월 8일댓글 수 로딩 중
[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning이 논문은 기존 의료 QA 벤치마크가 놓쳤던 인구 수준 추론 및 증거 기반 역학적 추론을 체계적으로 평가하기 위해 대규모 언어 모델(LLM) 을 위한 새로운 진단 벤치마크인 EpiQAL 을 개발하는 것을 목표로 합니다.#Review#Epidemiological Question Answering#Large Language Models#Benchmark#Multi-step Inference#Evidence Grounding#LLM Evaluation#Public Health AI#Chain-of-Thought2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open Web본 논문은 기존 벤치마크들이 텍스트 및 정적 멀티모달 정보 탐색에 초점을 맞추고 동적인 웹 비디오 콘텐츠를 간과하는 문제점을 해결하고자 합니다.#Review#Agentic AI#Video Understanding#Web Browsing#Benchmark#Multimodal LLMs#Temporal Grounding#Cross-Source Reasoning#Information Seeking2025년 12월 29일댓글 수 로딩 중
[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs이 논문은 에이전트가 모호한 자연어 지시를 받아 복잡하고 장거리인 환경에서 특정 객체 인스턴스를 찾아내는 Interactive Instance Object Navigation (IION) 태스크를 도입합니다.#Review#Embodied AI#Vision and Language Navigation#Instance Object Navigation#Active Dialog#Large Language Models (LLMs)#Benchmark#Human-Robot Interaction2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SVBench: Evaluation of Video Generation Models on Social Reasoning현재 텍스트-투-비디오(T2V) 생성 모델이 시각적 사실성과 모션 충실도에서 발전했음에도 불구하고, 사회적으로 일관된 행동 을 생성하는 데 근본적인 한계가 있음을 지적합니다.#Review#Video Generation#Social Reasoning#Benchmark#Evaluation#Agent-based Pipeline#Vision-Language Models#Social Cognition2025년 12월 28일댓글 수 로딩 중
[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior언어 모델(LM) 성능 및 동작에 대한 토크나이저 선택의 영향 을 체계적으로 측정하고 이해하는 것을 목표로 합니다. 기존 연구에서 토크나이저의 영향이 다른 변수와 분리하기 어렵다는 문제점을 해결하고자 합니다.#Review#Tokenizer#Language Models (LMs)#Robustness#Multilingual NLP#Benchmark#Subword Segmentation#Pre-training#Tokenization Impact2025년 12월 24일댓글 수 로딩 중
[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation텍스트-오디오-비디오 (T2AV) 생성 모델의 평가 방식이 파편화되어 있고, 단일 모달 메트릭에 의존하며 복잡한 프롬프트에서 크로스-모달 정렬, 지시 준수 및 인지적 사실성을 제대로 포착하지 못하는 문제를 해결하고자 합니다. 본 연구는 T2AV 시스템의 포괄적인 평가를 위한 통합 벤치마크 를 제시하는 것을 목표로 합니다.#Review#Text-to-Audio-Video Generation#Multimodal Evaluation#Benchmark#MLLM-as-a-Judge#Cross-modal Alignment#Instruction Following#Perceptual Realism#Audio Realism2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMs멀티모달 대규모 언어 모델(MLLM) 내에서 공간 능력의 계층적 구조가 제대로 이해되지 않고 단편적으로 연구되는 문제를 해결하는 것을 목표로 합니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering기존 VideoQA 벤치마크가 단일 단서나 언어 사전 지식에 의존하는 경향이 있어 다중 증거 통합 능력을 제대로 평가하지 못하는 문제를 해결하고자 합니다.#Review#Video Question Answering#Multi-evidence Integration#Video-LLMs#Benchmark#Temporal Reasoning#Frame Selection#Evidential Requirement#MRFS2025년 12월 21일댓글 수 로딩 중
[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation본 연구는 기존 벤치마크에서 MLLM(Multimodal Large Language Models)이 달성한 높은 성능에도 불구하고, 인간과 유사한 시각적 접지(visual grounding) 능력 을 실제 복잡한 시나리오에서 갖추고 있는지 근본적인 질문을 던집니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks기존 GUI 그라운딩 벤치마크가 데이터 부족, 좁은 도메인 커버리지, 단일 플랫폼 집중, 그리고 과도한 전문 지식 요구 등의 한계를 가지고 있음을 지적합니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image본 논문은 이미지와 텍스트가 혼합된 시퀀스를 처리하는 옴니 모델(Omni Models)을 위한 보상 모델(Reward Models, RMs)의 부족한 평가 프레임워크를 해결하고자 합니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?본 논문은 대규모 언어 모델(LLM)의 컨텍스트 창 확장과 관련된 계산 및 메모리 오버헤드 문제를 해결하기 위해 Vision-Text Compression (VTC) 패러다임을 탐구합니다.#Review#Vision-Text Compression (VTC)#Long Context Understanding#Vision-Language Models (VLMs)#Benchmark#Information Retrieval#Associative Reasoning#Multimodal AI2025년 12월 17일댓글 수 로딩 중
[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents이 논문은 기존 코딩 에이전트 벤치마크들이 완전한 소프트웨어 시스템을 구축하는 데 필요한 장기적인 추론 능력 을 엄격하게 평가하지 못하는 문제를 해결하고자 합니다.#Review#Coding Agents#LLMs#Software Engineering#Repository Generation#Long-Horizon Reasoning#Benchmark#Python Development#Autonomous Systems2025년 12월 15일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce본 논문은 기존의 학술적 또는 인공적으로 설계된 에이전트 평가 벤치마크들이 실제 복잡한 전자상거래 환경의 도전을 간과하고 있음을 지적합니다. 이에 대한 해결책으로, 실제 전자상거래 시나리오에서 파운데이션 에이전트의 성능을 종합적으로 평가하기 위한 EcomBench 라는 새로운 벤치마크를 제안합니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation본 논문은 멀티모달 대규모 언어 모델(MLLM)의 안전성 정렬을 우회하는 탈옥(jailbreak) 공격 에 대한 통합적인 벤치마크 및 툴박스 를 구축하는 것을 목표로 합니다. 기존 벤치마크가 가진 제한적인 공격 시나리오, 표준화되지 않은 방어 평가, 재현 가능한 툴박스 부재와 같은 한계를 극복하고자 합니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[triton] 벤치마크에서 symmetric memory 해제분산 환경 벤치마크와 테스트에서 각 실행 후 symmetric memory pool을 명시적으로 해제하여 메모리 누수를 방지하도록 개선한 PR을 분석합니다.#Triton#Benchmark#Distributed#Memory Management2025년 12월 5일댓글 수 로딩 중
[Triton] Hopper에서 소규모 배치 크기 벤치마크 수정Hopper GPU에서 small batch MLP 벤치마크의 num_warps 설정과 테스트 케이스 추가#Triton#Benchmark#Hopper#MLP#Bug Fix2025년 12월 4일댓글 수 로딩 중
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AI현재 다중 모달 대규모 언어 모델( MLLM )과 비디오 생성 모델( VGM )이 실제 물리적 역학을 인지하고 예측하는 능력을 충분히 지원하는지 이해하는 데 한계가 있습니다.#Review#Physical AI#Benchmark#Video Generation#Conditional Video Generation#Video Understanding#Multimodal LLMs#Physical Plausibility#Embodied Reasoning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos본 연구는 대규모 언어 모델(MLLMs)이 스트리밍 비디오 환경에서 인간의 시선(gaze) 신호를 활용하여 시간적 추론 및 선제적 이해를 얼마나 효과적으로 수행하는지 평가하는 것을 목표로 합니다.#Review#Streaming Video Understanding#Gaze-Guided AI#Temporal Reasoning#Proactive AI#MLLMs#Eye Tracking#Benchmark#Human-Computer Interaction2025년 12월 1일댓글 수 로딩 중
[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages대규모 언어 모델(LLMs)이 고자원 다국어 작업에서 우수한 성능을 보이지만, 저자원 및 초저자원 인디언 언어에 대한 평가는 심각하게 부족합니다. 본 연구는 이러한 언어에서의 LLM 성능 한계를 체계적으로 평가하고, 교차 언어 전이 학습의 효과를 밝히는 데 목적이 있습니다.#Review#Low-resource Languages#Indic Languages#LLM Evaluation#Benchmark#Multilingual LLMs#Question Answering#Cross-lingual Transfer2025년 12월 1일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via Checklists이 논문은 대규모 언어 모델(LM)이 자신의 답변을 스스로 또는 외부 피드백을 통해 얼마나 효과적으로 개선할 수 있는지를 평가하는 것을 목표로 합니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language Model본 논문은 제한적인 치과 데이터, 전문가 주석 부족, 모달리티별 모델링 미흡, 그리고 기존 MLLM의 일관성 및 신뢰성 문제(환각 응답 포함)로 인해 미개척 분야였던 치과 분야에서 포괄적이고 신뢰할 수 있는 분석을 위한 치과 전문 MLLM(Multimodal Large Language Model)인 OralGPT-Omni 를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Model (MLLM)#Dental Imaging Analysis#Chain-of-Thought (CoT) Reasoning#Medical AI#Benchmark#Diagnosis#Oral Healthcare#Explainable AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following본 연구는 기존 멀티모달 평가 벤치마크들이 단일, 총체적 선호도 에만 초점을 맞춰, 미세한 기준별 판단 과 기준 간의 충돌 을 간과하는 한계를 해결하고자 합니다.#Review#Multimodal Judges#LMM Evaluation#Pluralistic Criteria#Criteria-Following#Trade-off Sensitivity#Conflict Resolution#Reward Models#Benchmark2025년 11월 27일댓글 수 로딩 중
[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual Answering본 논문은 시각적 질문에 대한 시각적 답변(VQ-VA) 능력, 즉 이미지를 통해 질문에 응답하는 기능을 오픈 소스 모델에도 도입하는 것을 목표로 합니다.#Review#Visual Question Answering (VQA)#Image Generation#Data-centric AI#Agentic Pipeline#Multimodal Models#Web-scale Data#Benchmark#LightFusion2025년 11월 25일댓글 수 로딩 중
[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection이 논문은 AI 생성 콘텐츠(AIGC) 탐지에서 전체 이미지 분류에 집중하는 기존 방식의 한계를 극복하고, 확산 모델 기반의 로컬 편집 에 대한 동시적인 편집 영역 위치 파악(localization) 및 모델 귀속(attribution) 을 목표로 합니다.#Review#AIGC Detection#Diffusion Models#Image Editing#Semantic Segmentation#Localization#Model Attribution#Benchmark#Multi-turn Editing2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?본 논문은 최신 세계 모델(World Models, WMs)이 텍스트로 지정된 암묵적인 의미론적 목표를 가진 길 없는 경로 계획(mapless path planning) 작업을 실제 환경에서 얼마나 잘 수행하는지 정량적으로 평가하는 것을 목표로 합니다.#Review#World Models#Mapless Navigation#Semantic Path Planning#Robot Learning#Video Prediction#Benchmark#Trajectory Generation2025년 11월 24일댓글 수 로딩 중
[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning본 논문은 인공 에이전트의 교차 환경 학습 능력 을 체계적으로 측정하기 위한 표준화된 인프라의 부재를 해결하는 것을 목표로 합니다. 특히, 다양하고 제어 가능한 환경의 부족과 에이전트 학습 방식을 통일적으로 표현할 방법이 없다는 두 가지 핵심 문제를 다룹니다.#Review#Automated Environment Generation#Cross-Environment Learning#Agent Learning#Language Models#Benchmark#Meta-Learning#Reinforcement Learning#Environment Design Language2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs본 연구는 대규모 언어 모델(LLM)이 권위나 설득과 같은 사회적 압력 에 직면했을 때 진실성을 왜곡하고 정확도가 저하되는 아첨(sycophancy) 현상을 측정하기 위한 견고성 중심의 프레임워크 를 제시합니다.#Review#LLM Sycophancy#Model Robustness#AI Alignment#Benchmark#Confidence Calibration#Behavioral Taxonomy#Social Influence#Epistemic Collapse2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks본 논문은 비디오 모델의 추론 능력, 특히 비디오 생성 을 통한 추론 능력을 체계적으로 평가하기 위한 포괄적인 벤치마크의 부재를 해결합니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning기존 벤치마크의 성능 포화 , 협소한 분야 집중 , 단순화된 답변 형식 , 그리고 데이터 오염 문제로 인해 최신 대규모 언어 모델(LLMs)의 진정한 역량을 평가하기 어렵다는 문제를 해결하고자 합니다.#Review#Benchmark#LLMs#Scientific Reasoning#Multidisciplinary#AI4S#Data Contamination#Evaluation#LRM-as-Judge2025년 11월 18일댓글 수 로딩 중
[논문리뷰] GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models본 논문은 통합 멀티모달 모델(UMMs)의 생성적 추론 능력 을 평가하기 위한 벤치마크 개발을 목표로 합니다. 기존 벤치마크들이 판별적 이해 또는 제약 없는 생성만을 평가하는 한계를 극복하고, 언어 이해와 정밀한 시각 생성을 융합하는 기하학적 생성적 추론 을 종합적으로 측정하고자 합니다.#Review#Multimodal AI#Generative Reasoning#Geometric Construction#Benchmark#GeoGebra#Code-based Evaluation#Unified Models2025년 11월 16일댓글 수 로딩 중
[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents본 연구는 개방형 질문에 대한 심층 연구(Deep Research, DR) 에이전트의 평가가 응답의 길이, 다양성, 동적 정보원 의존성 등으로 인해 어렵다는 문제를 제기합니다.#Review#Deep Research Agents#LLM Evaluation#Benchmark#Rubrics#Multi-step Reasoning#Cross-document Synthesis#AI Performance#Task Complexity2025년 11월 13일댓글 수 로딩 중
[논문리뷰] MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique본 논문은 대규모 멀티모달 모델(LMMs) 의 멀티모달 비판 능력에 대한 포괄적이고 신뢰성 있는 평가의 필요성을 제기하며, LMMs의 자가 개선 및 신뢰성 향상을 목표로 합니다. 기존 벤치마크의 이진 선호도 예측 한계를 넘어, 기본, 교정, 비교의 세 가지 비판 차원에서 MM-CRITIC 벤치마크를 제안합니다.#Review#LMMs#Multimodal Critique#Benchmark#Evaluation#Reward Model#GPT-4o#Scaling Law2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play Villains본 논문은 대규모 언어 모델(LLM)이 다양한 도덕적 스펙트럼, 특히 악역 캐릭터를 얼마나 설득력 있게 연기할 수 있는지 체계적으로 조사하는 것을 목표로 합니다.#Review#LLM#Role-playing#Safety Alignment#Villain#Persona Simulation#Moral Alignment#Benchmark#Character Fidelity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity기존 멀티모달 벤치마크들이 텍스트 기반 추론을 과도하게 강조하거나 시각 중심의 인지적 행동을 체계적으로 포착하지 못하여 MLLM의 인지 능력을 불충분하게 평가하는 한계를 해결하는 것을 목표로 합니다. 시각 기반 추론에 중점을 둔 새로운 벤치마크 MME-CC 를 도입하여 MLLM의 인지 능력을 심층적으로 평가하고자 합니다.#Review#Multimodal LLMs#Benchmark#Cognitive Capacity#Visual Reasoning#MLLM Evaluation#Error Analysis#Chain-of-Thought2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation대규모 언어 모델(LLMs)로 생성된 3D 장면이 현실적인 공간 레이아웃과 객체 속성을 제대로 반영하지 못하는 문제를 해결하는 것이 목표입니다.#Review#3D Scene Synthesis#Fine-Grained Evaluation#Tool-Augmented LLMs#Embodied AI#Vision-Language Models#Benchmark#Multi-Hop Grounding2025년 11월 9일댓글 수 로딩 중
[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought본 논문은 중간 시각 이미지를 생성하는 것이 성공적인 추론에 필수적인 시나리오에서 모델을 평가하기 위한 새로운 벤치마크인 MIRA (Multimodal Imagination for Reasoning Assessment) 를 제안합니다.#Review#Multimodal AI#Visual Reasoning#Chain-of-Thought (CoT)#Benchmark#Image Generation#MLLMs#Visual-CoT2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation본 논문은 에이전트 시대의 추론 및 행동을 위한 시각 중심 코딩의 미개척 영역을 탐구합니다. 기존 RGB 픽셀 기반 이미지 표현의 제한된 상징적 추상화를 넘어서, 이미지를 SVG 코드 와 같은 압축적이고 해석 가능하며 실행 가능한 시각적 표현으로 변환하는 것을 목표로 합니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMs대규모 언어 모델(LLMs)이 인간 지능의 핵심 요소인 유연하고 다면적인 추론 능력(논리적 추론, 공간 인식, 제약 조건 만족)을 평가하는 데 있어 기존 벤치마크의 한계를 해결하고자 합니다.#Review#LLM Reasoning#Generative AI#Benchmark#Logical Deduction#Spatial Reasoning#Constraint Satisfaction#Hallucination Cascade#Self-Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models대규모 멀티모달 모델(LMM)이 이미지 인코더에서 생성되는 막대한 수의 시각 토큰으로 인해 겪는 심각한 추론 비효율성 문제를 해결하는 것이 주된 목표입니다.#Review#Large Multimodal Models#Visual Token Compression#Token Pruning#Benchmark#Efficiency#Inference Latency#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Image Editing#Reasoning-based AI#Benchmark#Multimodal Learning#Chain-of-Thought (CoT)#Dual-Reference Evaluation#Generative Models#Game AI2025년 11월 9일댓글 수 로딩 중
[triton] Tutorials: 벤치마크 결과 테이블에 단위(units) 표시 추가Triton 튜토리얼의 벤치마크 결과 테이블 컬럼에 ylabel 단위를 포함시켜 결과의 가독성을 개선한 변경 분석.#Triton#Tutorial#Benchmark#UX#Python2025년 11월 4일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark본 논문은 기존 벤치마크들이 통합 멀티모달 모델의 이해 및 생성 능력을 개별적으로 평가하는 한계를 지적하며, 모델의 아키텍처적 통합 이 실제적으로 이러한 역량 간의 시너지 효과 를 유도하는지에 대한 근본적인 질문에 답하는 것을 목표로 합니다.#Review#Unified Models#Multimodal AI#Benchmark#Capability Synergy#Visual Understanding#Image Generation#Dual-Evaluation Protocol2025년 9월 30일댓글 수 로딩 중
[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling본 논문은 이미지 편집 분야에서 온라인 강화 학습(RL) 의 적용을 가로막는 주요 장애물인 고충실도(high-fidelity) 이면서 효율적인 보상 신호의 부재를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Image Editing#Reward Modeling#Instruction-Guided Editing#Online RL#Visual Language Models#Benchmark#Self-Ensembling2025년 9월 30일댓글 수 로딩 중
[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language Models본 연구는 코드 대규모 언어 모델(Code LLM)의 알고리즘 문제 해결 능력과 실제 게임 개발의 포괄적인 요구사항 간의 격차를 해소하고자 합니다.#Review#Code Large Language Models#Visual Game Generation#Benchmark#Pygame#Multimodal Evaluation#Software Engineering#AI-assisted Game Development2025년 9월 26일댓글 수 로딩 중
[논문리뷰] StyleBench: Evaluating thinking styles in Large Language Models본 연구는 LLM이 사용하는 추론 전략, 즉 '사고 방식'이 모델 아키텍처 및 태스크 유형과 어떻게 상호작용하는지에 대한 이해 부족을 해결하는 것을 목표로 합니다.#Review#Large Language Models#Reasoning Strategies#Prompt Engineering#LLM Evaluation#Benchmark#Thinking Styles#Scaling Laws#Meta-Reasoning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Does FLUX Already Know How to Perform Physically Plausible Image Composition?본 연구는 복잡한 조명, 그림자, 물 반사 등 물리적으로 사실적인 이미지 합성 을 사전 훈련된 텍스트-투-이미지(T2I) 확산 모델 을 활용하여 훈련 없이 수행하는 것을 목표로 합니다. 기존 모델들이 가진 객체 포즈 고정, 부적절한 해상도 처리, 그리고 컨텍스트에 맞지 않는 조명 생성 등의 한계를 극복하고자 합니다.#Review#Image Composition#Diffusion Models#Training-Free#Physically Plausible#FLUX#Adapter#Guidance#Benchmark2025년 9월 26일댓글 수 로딩 중
[논문리뷰] BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback본 논문은 검색 증강 대규모 언어 모델(LLMs)의 개인화 능력 평가에 대한 체계적인 벤치마크 부재 문제를 해결하고자 합니다. 사용자의 다양한 정보 요구와 선호하는 전달 방식을 LLM이 얼마나 효과적으로 반영하는지 진단하고 평가하기 위한 사실적이고 진단적인 벤치마크 인 BESPOKE 를 제안하는 것을 목표로 합니다.#Review#Search-Augmented LLMs#Personalization#Benchmark#Diagnostic Feedback#User History#Evaluation Framework#RAG2025년 9월 26일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction본 연구는 기존 비디오 벤치마크들이 장거리 이동 및 다일(multi-day) 활동과 같은 거시적 규모의 지리 공간-시간적 시나리오 를 충분히 다루지 못한다는 한계를 지적하며, MLLM(Multimodal Large Language Models)의 확장된 지리 공간 및 시간적 이해 능력 을 평가하는 새로운 벤치마크 VIR-Bench를 제시합니다.#Review#Multimodal LLMs#Video Understanding#Geospatial Reasoning#Temporal Reasoning#Travel Itinerary Reconstruction#Benchmark#Agent System#VLOG2025년 9월 24일댓글 수 로딩 중
[논문리뷰] OpenGVL - Benchmarking Visual Temporal Progress for Data Curation로봇 공학 분야의 데이터 부족 문제를 해결하고, 대규모 로봇 데이터셋을 자동으로 주석 및 큐레이션할 수 있는 도구의 필요성을 강조합니다. 이를 위해 시각적 관측을 통한 로봇 작업 진행도 예측을 위한 벤치마크인 OpenGVL 을 제안하고, 데이터 큐레이션 도구로서의 활용 가능성을 입증하는 것을 목표로 합니다.#Review#Robotics Data Curation#Visual Temporal Progress#Generative Value Learning (GVL)#Vision-Language Models (VLMs)#Benchmark#Task Progress Prediction#Value-Order Correlation (VOC)2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR본 논문은 필기체 스크립트, 다양한 글꼴, 발음 기호, 우-좌향 텍스트 방향성으로 인해 어려운 아랍어 문서 OCR의 과제를 해결하고자 합니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중
[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery본 연구는 고대 그리스 도자기에 대한 전문가 수준의 추론 능력을 갖춘 MLLM(Multimodal Large Language Models) 에이전트를 개발하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Visual Question Answering#Reinforcement Learning#Cultural Heritage#Ancient Greek Pottery#Supervised Fine-Tuning#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.#Review#AI Agents#Software Engineering#LLMs#Code Generation#Benchmark#Contamination Resistance#Long-Horizon Tasks#Enterprise Software2025년 9월 23일댓글 수 로딩 중
[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects기존 LLM 기반 코드 리뷰(CR) 벤치마크가 겪는 '현실성 격차'(reality gap) 문제를 해결하고자 합니다.#Review#Code Review#LLMs#Benchmark#Python Projects#End-to-End Evaluation#Context-Awareness#Software Engineering#LLM-as-a-Judge2025년 9월 23일댓글 수 로딩 중
[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?언어 모델(LLMs)이 오디오 입력 없이 텍스트만으로 청각적 상식과 추론 능력을 이해하는 데 부족함을 해결하고자 합니다. 이 격차를 해소하기 위해 청각 지식을 평가하는 AuditoryBench++ 벤치마크를 제시하고, LLM이 청각 정보를 '상상'하여 추론하는 AIR-CoT 방법론을 개발하는 것을 목표로 합니다.#Review#Auditory Knowledge#Large Language Models#Multimodal Reasoning#Benchmark#Chain-of-Thought#Auditory Imagination#Text-only Reasoning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] ARE: Scaling Up Agent Environments and Evaluations논문은 AI 에이전트 개발 및 평가를 위한 확장 가능한 연구 플랫폼인 Meta Agents Research Environments (ARE) 를 소개하고, 이를 기반으로 일반 에이전트 역량을 측정하는 벤치마크인 Gaia2 를 제시합니다.#Review#Agent Environments#Agent Evaluation#LLM Agents#Asynchronous Systems#Reinforcement Learning#Tool Use#Multi-agent Collaboration#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SteeringControl: Holistic Evaluation of Alignment Steering in LLMs대규모 언어 모델(LLM)의 정렬 조작(alignment steering) 방법론들을 총체적으로 평가 하는 것을 목표로 합니다.#Review#LLM Alignment#Representation Steering#Benchmark#Behavioral Entanglement#Bias Mitigation#Harmful Generation#Hallucination Control#Modular Framework2025년 9월 18일댓글 수 로딩 중
[논문리뷰] GenExam: A Multidisciplinary Text-to-Image Exam기존 텍스트-투-이미지(T2I) 벤치마크들이 일반적인 세계 지식이나 개념 설명에 치우쳐 엄격한 도면 시험 평가에 미흡하다는 문제점을 해결하고자 합니다.#Review#Text-to-Image Generation#Multidisciplinary#Benchmark#Evaluation#AGI#Reasoning#Scoring System#Visual Question Answering2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Measuring Epistemic Humility in Multimodal Large Language Models본 논문은 멀티모달 대규모 언어 모델(MLLM)의 환각(hallucination) 문제를 해결하고, 특히 모델이 불확실한 상황에서 잘못된 정보를 확신하지 않고 '모르는 것을 모른다고 인정하는' 능력 , 즉 인식론적 겸손(epistemic humility) 을 측정하는 새로운 벤치마크를 제시하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Hallucination#Epistemic Humility#Benchmark#False-Option Rejection#Visual Question Answering#Scene Graph2025년 9월 16일댓글 수 로딩 중
[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions본 논문은 음성 언어 모델(SLM)이 음성 지시에 따라 음성 스타일(음색, 운율, 페르소나 등)을 조절하는 능력, 즉 음성 스타일 적응(VSA) 에 대한 연구 부족 문제를 해결하고자 합니다.#Review#Voice Style Adaptation#Spoken Language Models#Benchmark#LALM-as-a-Judge#Speech Generation#Multilingual#Evaluation Framework2025년 9월 15일댓글 수 로딩 중
[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.#Review#Headline Generation#Minority Languages#Low-Resource NLP#Dataset#Benchmark#Natural Language Generation#Chinese Minority Languages2025년 9월 15일댓글 수 로딩 중
[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering본 논문은 기존 코드 평가 벤치마크의 한계를 극복하고, 수백만 토큰으로 확장된 컨텍스트 윈도우 를 가진 LLM이 현실적이고 복잡한 소프트웨어 개발 시나리오에서 긴 컨텍스트를 얼마나 잘 이해하고 활용하는지를 종합적으로 평가하는 것을 목표로 합니다.#Review#Long-Context LLMs#Software Engineering#Code Evaluation#Benchmark#Multi-file Reasoning#Architectural Understanding#Context Length#Software Development Lifecycle#Metrics2025년 9월 12일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsAI에 대한 인간의 의존도가 높아짐에 따라 개인 및 집단적 통제력을 상실하는 '인간 에이전시 상실' 문제에 대응하고자 합니다.#Review#Human Agency#AI Assistants#LLM Evaluation#Benchmark#Sociotechnical AI#AI Alignment#Scalable Evaluation2025년 9월 11일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeLarge Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents이 논문은 모바일 GUI 에이전트의 효율성을 높이기 위해 GUI 작업과 효율적인 바로가기(shortcuts) 를 결합한 하이브리드 패러다임의 체계적인 벤치마킹 프레임워크가 부족하다는 문제를 해결하고자 합니다.#Review#Mobile GUI Agents#Hybrid Automation#Shortcut Generation#Benchmark#Task Efficiency#LLM-based Agents#Mobile Robotics2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?본 논문은 대규모 언어 모델(LLMs)이 지도 미세 조정(SFT) 과정에서 학습한 표준화된 패턴과 상충하는 지시를 따르는 데 어려움을 겪는 ' 인지적 관성 ' 문제를 해결하고자 합니다.#Review#LLMs#Instruction Following#Benchmark#Cognitive Inertia#Out-of-Distribution#Supervised Fine-Tuning#Evaluation#Robustness2025년 9월 5일댓글 수 로딩 중
[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks본 논문은 기존 벤치마크의 데이터 누출 위험과 비현실적인 평가 방식의 한계를 극복하기 위해, 대규모 언어 모델(LLM) 기반 연구 에이전트 의 실제 연구 능력을 평가하기 위한 새로운 벤치마크인 DeepResearch Arena 를 제안합니다.#Review#LLM Evaluation#Research Agents#Benchmark#Multi-Agent System#Seminar-Grounded Tasks#Data Leakage Prevention#Ill-Structured Problems2025년 9월 5일댓글 수 로딩 중
[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games기존 GUI 에이전트 벤치마크는 게임 다양성과 전체 스토리라인 완료 평가 기능이 부족하며, 에이전트가 이전에 관찰한 정보를 기억하고 활용하는 '관찰-행동 간극' 문제를 제대로 다루지 못했습니다.#Review#GUI Agents#Adventure Games#Benchmark#Full Story Arc#Observation-Behavior Gap#LLMs#Automated Evaluation2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video UnderstandingVideo MLLM(Multimodal Large Language Models)이 긴 비디오에서 보이는 Semantic Aggregation Hallucination (SAH) 문제를 해결하는 데 목표를 둡니다.#Review#Long Video Understanding#Hallucination#Semantic Aggregation#Video MLLM#Benchmark#DPO#Positional Encoding#VideoQA2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks본 논문은 대규모 언어 모델(LLM) 기반의 심층 연구(Deep Research) 에이전트가 생성하는 연구 보고서의 내용 품질을 체계적으로 평가하기 위한 벤치마크인 ReportBench 를 제안합니다.#Review#Deep Research Agents#LLM Evaluation#Academic Survey#Factual Accuracy#Citation Verification#Report Generation#Benchmark#Hallucination2025년 8월 27일댓글 수 로딩 중
[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics본 논문은 대규모 언어 모델(LLMs)이 복잡한 과학 도메인, 특히 응집 물질 물리학(Condensed Matter Physics, CMP) 문제 해결에 얼마나 능숙한지 평가하기 위한 새로운 벤치마크인 CMPhysBench 를 제안합니다.#Review#Large Language Models#Condensed Matter Physics#Benchmark#Scientific Reasoning#Evaluation Metric#Expression Edit Distance#Problem Solving2025년 8월 27일댓글 수 로딩 중
[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing Methods이 논문은 기존 벤치마크의 단순성과 실제 편집 과제에 대한 낮은 대표성이라는 한계를 극복하기 위해, 시각적으로 안내되는 이미지 편집(Visually-Guided Image Editing) 모델을 체계적이고 세밀하게 평가하기 위한 포괄적인 벤치마크인 SpotEdit 을 소개합니다.#Review#Visually-Guided Image Editing#Multimodal Models#Benchmark#Hallucination#Diffusion Models#Autoregressive Models#Evaluation Metrics2025년 8월 26일댓글 수 로딩 중
[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions현재 대규모 언어 모델(LLM)의 코드 추론 능력 평가 벤치마크들이 모델의 실제 역량을 과대평가하며, 엘리트 인간 프로그래머와의 격차를 숨기고 있다는 문제 의식에서 출발합니다.#Review#Competitive Programming#LLM Evaluation#Code Reasoning#Benchmark#Test Case Generation#Programming Competitions#Algorithmic Problems2025년 8월 25일댓글 수 로딩 중
[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship Behavior이 논문은 사용자들이 AI 시스템과 감정적 유대감을 형성하는 AI 동반자 관계(AI companionship)의 증가에 주목합니다.#Review#AI Companionship#Benchmark#Language Models (LLMs)#Human-AI Interaction#Emotional AI#Boundary Setting#Psychological Frameworks#Evaluation Metrics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.#Review#Controllable Image Generation#Multi-modal Generation#Visual References#Image-to-Image#Benchmark#Dataset#MLLM-as-a-Judge2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence본 논문은 AI 시스템의 청각 지능을 포괄적으로 평가하는 데 있어 기존 벤치마크의 한계를 극복하고, 홀리스틱 오디오 이해 능력 을 종합적으로 측정하기 위한 새롭고 도전적인 벤치마크 MMAU-Pro 를 제안합니다.#Review#Audio Intelligence#Multimodal AI#Benchmark#Audio-Language Models#Holistic Evaluation#Reasoning#Long-Form Audio#Multicultural Music2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.#Review#Multimodal Browsing#AI Agents#Benchmark#Vision-Language Models#Reasoning#Tool Use#Deep Search2025년 8월 20일댓글 수 로딩 중
[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds본 논문의 핵심 연구 목표는 복잡한 가상 세계 내에서 대규모 언어 모델(LLM) 의 장기 계획 및 구조화된 추론 능력을 평가하는 것입니다.#Review#Long-Horizon Planning#Structured Reasoning#LLM Evaluation#Virtual Worlds#RPG#Benchmark#Agent Systems#Combat Simulation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-Seeking본 논문은 광범위한 정보 탐색(WideSearch) 작업에서 LLM 기반 에이전트의 신뢰성과 완성도를 평가하기 위한 새로운 벤치마크를 제시합니다. 이는 기존 벤치마크가 놓치고 있던, 대규모의 원자적 정보를 철저하고 정확하게 수집하여 잘 정리된 출력으로 구성 하는 실세계 정보 탐색 시나리오를 평가하는 데 중점을 둡니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중
[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding본 논문은 기존 벤치마크의 영어 단일 언어 및 단일 페이지 제한을 넘어, 다국어 장문 문서 에서 질문 기반 멀티모달 검색(multimodal retrieval) 을 평가하기 위한 새로운 벤치마크인 VisR-Bench 를 제안합니다.#Review#Multimodal Retrieval#Retrieval-Augmented Generation#Long Document Understanding#Multilingual NLP#Visual QA#Benchmark#MLLMs#Table Understanding2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.#Review#Video Object Segmentation#Dataset#Complex Scenes#Benchmark#Object Tracking#Computer Vision#Dataset Challenges2025년 8월 8일댓글 수 로딩 중
[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning본 논문은 Vision Language Models(VLMs)이 복잡하고 동적인 물리 환경에서 정확한 행동 계획 및 공간/시간 추론 능력 에 한계를 보이는 문제를 해결하고자 합니다.#Review#Vision Language Models (VLMs)#Agentic AI#Physical Reasoning#Benchmark#Simulation Environments#Action Planning#Interactive AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?본 논문은 기존 도구 사용 벤치마크가 시뮬레이션되거나 소규모의 MCP(Model Context Protocol) 서버에 국한되어 실제 대규모의 동적인 환경을 반영하지 못하는 한계를 지적합니다.#Review#LLM Agent#Tool-use#MCP#Benchmark#Large-scale#Real-world tasks#Automated Evaluation#Meta-tool-learning2025년 8월 6일댓글 수 로딩 중
[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.#Review#Motion Generation#Generalization#Diffusion Models#Transformer#Large-scale Dataset#Benchmark#Multimodal Learning#Video Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.#Review#Vision-Language Models (VLMs)#Chart Understanding#Visual Grounding#Dense Alignment#Benchmark#Robustness#Multimodal Learning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark본 논문은 웨어러블 AI 시나리오를 위한 Multi-Modal Retrieval-Augmented Generation (MM-RAG) 시스템의 포괄적인 평가를 위한 벤치마크가 부족하다는 문제를 해결합니다.#Review#Multi-modal RAG#Benchmark#Wearable AI#Multi-turn Conversation#Egocentric Images#Knowledge Graph#Web Search#Hallucination2025년 10월 31일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math Competitions기존 대규모 언어 모델(LLM) 수학 벤치마크들의 성능 포화 문제 를 해결하고, LLM의 고급 수학적 추론 능력을 보다 엄격하게 평가하기 위한 새로운 벤치마크 AMO-Bench를 제안하는 것이 목표입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중
[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains이 논문은 기존 벤치마크의 Anglocentric 및 도메인-불가지론적 한계를 해결하고, 인도 중심의 지식 시스템에 대한 평가 부족 문제를 다룹니다.#Review#Large Language Models (LLMs)#Benchmark#Indic Languages#Multilingual Evaluation#Domain-Specific AI#India-centric Knowledge Systems#Zero-Shot Learning#Question Answering2025년 10월 30일댓글 수 로딩 중
[논문리뷰] VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations컴퓨터 비전 분야에서 CNN의 의존성을 완전히 제거 하고, 순수한 Transformer 아키텍처 만으로 이미지 분류 성능을 달성하는 것을 목표로 합니다. 기존 CNN 기반 접근법의 한계를 극복하고 self-attention 메커니즘 이 이미지 패치 간의 관계를 효과적으로 학습할 수 있음을 증명하고자 합니다.#Review#Visualization Quality Assessment#MLLMs#Benchmark#Aesthetics#Fidelity#Expressiveness#Fine-tuning#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence기존 오디오 벤치마크가 텍스트로 쉽게 표현 가능한 의미론적 내용에 치중하여 미세한 지각 추론 능력을 간과하는 문제를 해결하는 것을 목표로 합니다.#Review#Audio Intelligence#Spatio-Temporal Reasoning#4D Audio#Benchmark#Large Audio-Language Models#Perceptual Reasoning#Multimodal LLMs2025년 10월 29일댓글 수 로딩 중
[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding본 논문은 기존 특허 텍스트 임베딩 벤치마크가 특허 고유의 복잡한 특징(긴 문서, 비대칭 매칭, 도메인 간 이해)을 충분히 반영하지 못하는 문제를 해결합니다.#Review#Patent Text Embedding#Benchmark#Multi-task Learning#Patent Retrieval#Sentence Embeddings#Knowledge Distillation#Cross-Domain Retrieval#Prompt Engineering2025년 10월 29일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.#Review#Multimodal Agents#Tool Invocation#Benchmark#Model Context Protocol (MCP)#GUI Automation#Computer-Use Agents#Evaluation Metrics2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning#Diagram Generation#Dataset#Benchmark2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark본 논문은 통합 멀티모달 모델의 생성(Generation) 및 이해(Understanding) 능력 간의 실제적인 상호작용 을 평가하는 기존 벤치마크의 한계를 해결하는 것을 목표로 합니다.#Review#Multimodal AI#Unified Models#Benchmark#Generation#Understanding#Reasoning#Evaluation#Cross-modal Synergy2025년 10월 16일댓글 수 로딩 중
[논문리뷰] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs본 논문은 Diffusion LLM (dLLM)의 병렬 디코딩이 토큰 의존성 을 무시하여 발생하는 생성 품질 저하 문제와 그로 인한 속도-품질 트레이드오프를 심층적으로 이해하고 정량화하는 것을 목표로 합니다.#Review#Diffusion LLMs#Parallel Decoding#Speed-Quality Trade-off#Benchmark#Token Dependencies#Unmasking Strategies#Information Theory2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model기존 RL 기반 LLM들이 수학적 추론 능력을 확장하기보다 기존 지식을 정교화하는 데 그치는 한계를 극복하고, 실제 모델의 추론 능력 경계를 확장 시키는 새로운 RL 방법론 개발을 촉진하기 위한 벤치마크 MATH-Beyond (MATH-B) 를 제시하는 것을 목표로 합니다.#Review#Reinforcement Learning (RL)#Mathematical Reasoning#Benchmark#Large Language Models (LLMs)#Exploration#Boundary Expansion#MATH-Beyond2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models본 연구는 Visual-Language-Action (VLA) 모델이 기존 벤치마크에서 높은 성능을 보임에도 불구하고, 실제 환경의 변동성에 대한 근본적인 취약성 을 체계적으로 분석하고 드러내는 것을 목표로 합니다. VLA 모델의 강건성 부족 과 일반화 능력의 한계 를 심층적으로 규명하고자 합니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math본 논문은 LLM 기반 추론 시스템의 수학적 증명 단계별 검증 능력을 평가하기 위한 새로운 벤치마크, Hard2Verify 를 제시합니다. 기존 벤치마크가 프론티어 수준의 오픈 엔드 수학 문제에 대한 단계별 오류를 충분히 평가하지 못하는 한계를 해결하고, 검증기의 실제 성능을 엄격하게 측정하는 것을 목표로 합니다.#Review#LLM Verification#Math Reasoning#Step-Level Verification#Benchmark#Open-Ended Problems#Process Reward Models#Generative Critics2025년 10월 16일댓글 수 로딩 중
[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & Reasoning본 연구의 목표는 실제 과학 실험 영상, 특히 습식 실험 환경에서의 복잡한 절차를 MLLM이 얼마나 잘 이해하는지 체계적으로 평가할 수 있는 벤치마크를 제시하는 것입니다. 기존 벤치마크들이 미세한(fine-grained) 디테일과 장기적인(long-horizon) 실험 과정을 간과하는 한계를 극복하고자 합니다.#Review#Experiment Video Understanding#Multimodal Large Language Models (MLLMs)#Scientific Reasoning#Benchmark#Wet-Lab Experiments#Procedural Understanding#Fine-grained Perception#Video QA2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Understanding DeepResearch via Reports본 논문은 지식 집약적 연구 작업을 수행하는 DeepResearch 에이전트 의 복합적인 평가 문제에 주목합니다.#Review#DeepResearch Agents#LLM-as-a-Judge#Report Evaluation#Agentic AI#Factuality#Redundancy#Research Automation#Benchmark2025년 10월 13일댓글 수 로딩 중
[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval기존 멀티모달 검색 벤치마크의 한계(일반 도메인, 단순 의미 매칭, 단일 이미지/단일 모달 문서)를 극복하고, 전문가 수준의 다학제적 지식과 심층적인 추론 을 요구하는 현실적인 멀티모달 검색 벤치마크를 구축하는 것을 목표로 합니다.#Review#Multimodal Retrieval#Benchmark#Reasoning#Multidisciplinary#Expert-Level#Image-Text Interleaving#Contradiction Retrieval2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!최근 학술 연구의 양이 급증하면서 연구자들은 자신의 논문을 효과적으로 홍보하고 가시성 및 인용을 확보하는 데 상당한 시간과 노력을 투자해야 합니다.#Review#Academic Promotion#Large Language Models#Multi-Agent Systems#Scholarly Communication#Multimodal Processing#Benchmark#Content Generation#Social Media Marketing2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG본 논문은 문서 중심의 멀티모달 RAG(Retrieval-Augmented Generation) 시스템 평가를 위한 기존 벤치마크들의 한계(파편화된 평가, 단순화된 멀티모달 설정, 제한된 규모 및 도메인)를 해결하고자 합니다.#Review#Multimodal RAG#Document AI#Benchmark#Information Retrieval#Large Language Models#Multimodal Embeddings#PDF Processing#Question Answering2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models기존 비디오 벤치마크들이 일반 시나리오와 단순 추론에 집중하여 최신 대규모 멀티모달 모델(LMM) 의 고급 인지 능력을 평가하는 데 한계가 있음을 지적하며, 과학 분야에서의 복잡한 비디오 추론 능력을 종합적으로 평가할 수 있는 엄격한 벤치마크인 SciVideoBench 를 구축하는 것을 목표로 합니다.#Review#Video Reasoning#Multimodal AI#Scientific Research#Large Multimodal Models#Benchmark#Quantitative Reasoning#Domain Knowledge#Visual Grounding2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization현재 Multimodal Large Language Models (MLLM) 은 복잡한 실제 문제 해결에 필수적인 긴 추론 체인(long-chain reflective reasoning) 및 반복적 사고(iterative thinking) 능력에서 한계를 보입니다.#Review#Multimodal LLMs#Reflective Reasoning#Long-Chain Reasoning#Benchmark#Policy Optimization#Data Generation#Reinforcement Learning#Backtracking2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.#Review#MLE (Machine Learning Engineering)#Automated Task Generation#Multi-Agent System#LLM Agents#Benchmark#Data Curation#Hybrid Verification#Kaggle2025년 10월 9일댓글 수 로딩 중
[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark대부분의 기존 egocentric vision 벤치마크가 주간 시나리오에 집중하여 야간의 저조도 환경을 간과하는 문제를 해결하고자 합니다.#Review#Egocentric Vision#Nighttime Conditions#Visual Question Answering (VQA)#Day-Night Alignment#Multimodal Large Language Models (MLLMs)#Depth Estimation#Correspondence Retrieval#Benchmark2025년 10월 8일댓글 수 로딩 중
[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL본 논문은 기존 WikiSQL 데이터셋이 가진 데이터 타입 불일치, 대소문자 일관성 부족, 구문 오류, 답변 불가 질문 등의 구조적, 주석 관련 문제점을 해결하고자 합니다.#Review#Text-to-SQL#WikiSQL#LLM#Dataset Curation#Natural Language Processing#Benchmark#SQL Generation#Data Cleaning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?본 논문은 학술 조사 논문 작성에 대한 대규모 언어 모델(LLM) 및 LLM 에이전트의 역량 을 엄격하게 평가하기 위해 독자 요구사항에 부합하는 벤치마크 의 부재를 해결합니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models본 논문은 기존 텍스트 및 시각 양상에 집중되었던 지식 편집 연구를 확장하여, 대규모 오디오-언어 모델(LALMs) 의 추상적인 청각 속성 지식 을 편집하는 문제를 탐구합니다.#Review#Knowledge Editing#Audio-Language Models#Auditory Attributes#Benchmark#Reliability#Generality#Locality#Portability2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff Understanding본 논문은 대규모 언어 모델(LLM)이 코드 diff를 얼마나 효과적으로 이해하고 처리하는지 평가하기 위한 Diff-XYZ 벤치마크를 제안합니다.#Review#Diff Understanding#Code Diff#Benchmark#LLMs#Code Editing#Software Engineering#Unified Diff Format#Search-Replace2025년 10월 24일댓글 수 로딩 중
[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents본 논문은 Multimodal Large Language Models (MLLMs)의 다중 작업 지도 미세 조정(SFT)에서 최적의 데이터 혼합 전략을 찾아 성능을 극대화하는 문제를 해결합니다. 특히, 모바일 폰 에이전트(MPA)의 다양한 기능을 동시에 처리하는 MLLM의 효율성을 향상시키는 것을 목표로 합니다.#Review#Multimodal LLMs#Fine-tuning#Data Mixing Optimization#Mobile Phone Agents#Downstream Task Prediction#Benchmark#Neural Networks2025년 10월 23일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation기존 Text-to-Image(T2I) 모델 평가 벤치마크의 한계점들을 해결하고, T2I 모델의 정교한 의미론적 일관성 및 실세계 적용 능력 을 종합적이고 효율적으로 평가하는 통합 벤치마크를 개발하는 것이 목표입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies과학 논문 내 텍스트, 그림, 표, 수식 등 다양한 모달리티 간의 불일치(inconsistencies) 를 LMM이 얼마나 신뢰성 있게 이해하고 추론하며 해결할 수 있는지를 평가하는 것을 목표로 합니다. 기존 벤치마크들이 합성 오류 나 단일 모달리티 에 집중하여 실세계 복잡성을 포착하지 못하는 한계를 극복하고자 합니다.#Review#Large Multimodal Models (LMMs)#Scientific Document Analysis#Multimodal Inconsistencies#Peer Review#Benchmark#Debiasing#JSON-based Representation#Reasoning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues기존 MLLM 평가 벤치마크가 주로 단일 턴 질의응답과 비디오 내용의 사실적 인지에만 초점을 맞춘 한계를 해결합니다.#Review#Multimodal LLMs#Video Understanding#Benchmark#Multi-Turn Dialogues#Perceptivity#Interactivity#Evaluation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?비디오 캡셔닝 분야에서 멀티모달 대규모 언어 모델(MLLM) 이 사용자의 특정 지시사항(예: 출력 형식, 길이, 내용 제약)을 얼마나 잘 따르는지 평가하는 새로운 벤치마크를 제시하는 것이 목표입니다.#Review#Video Captioning#Instruction Following#MLLMs#Benchmark#Controllable Generation#Multimodal Evaluation#Fine-tuning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial Intelligence논문은 관찰자와 객체가 동시에 움직이는 동적 3D 시나리오 에서 최신 Vision-Language Models (VLMs)의 제한적인 이해 능력을 해결하고자 합니다.#Review#Dynamic Spatial Reasoning#Vision-Language Models (VLMs)#Benchmark#Video Understanding#Motion Perception#3D Spatial Intelligence#Hallucinations#Bias2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.#Review#Image Editing#Physical Realism#Benchmark#VLM-as-a-Judge#Synthetic Data#Physics-Aware AI#Diffusion Models#Evaluation Metrics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models기존 Vision-and-Language Model (VLM) 평가 벤치마크들이 다중 턴 대화 시나리오의 깊이와 폭을 충분히 포착하지 못하는 한계를 해결하고자 합니다.#Review#Multi-Turn Conversation#VLM Evaluation#Benchmark#Vision and Language Models#Contextual Understanding#Checklist-based Evaluation#Interactive AI2025년 10월 21일댓글 수 로딩 중
[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain본 논문은 금융 도메인에서 대규모 언어 모델(LLM)의 신뢰성을 종합적으로 평가하기 위한 FINTRUST 벤치마크를 제시합니다.#Review#LLM Trustworthiness#Finance Domain#Benchmark#Alignment Evaluation#Financial AI#Hallucination#Privacy#Fairness2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses본 연구는 대규모 언어 모델(LLM)의 편향 완화(bias mitigation) 기법들에 대한 기존 연구들의 일관성 없는 평가 방식 과 모델 내부 확률에 기반한 평가와 실제 사용자 응답 간의 격차 를 해결하고자 합니다.#Review#LLM Bias Mitigation#Benchmark#Evaluation Metrics#Prompt Engineering#Fine-tuning#Bias-Free Score#Fairness2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap본 논문은 실시간 대화 제약 조건 하에서 음성 대화형 시스템의 추론 능력을 평가하고, 텍스트 모델과 비교하여 발생하는 심각한 성능 저하, 즉 Voice Reasoning Gap (VRG) 을 진단하는 것을 목표로 합니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes현재 시각 언어 모델(VLM) 벤치마크가 밀집된 고해상도 장면 에서의 시각적 이해 능력을 과대평가하고 있다는 문제 인식을 바탕으로, 모델의 세밀한 시각적 이해 능력 과 복잡한 추론 능력 을 정확하게 평가할 수 있는 새로운 VQA 벤치마크를 제시하는 것이 목표입니다.#Review#Visual Question Answering#Multimodal Models#Dense Scenes#Fine-Grained Perception#Benchmark#Error Analysis#Counting#OCR2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use본 논문은 기존의 MCP(Model Context Protocol) 벤치마크가 현실적인 워크플로우의 복잡성을 제대로 포착하지 못하고 읽기 위주 또는 제한적인 상호작용 깊이에 머물러 있다는 문제점을 해결하고자 합니다.#Review#LLM Agents#Model Context Protocol#Benchmark#Tool Use#CRUD Operations#Workflow Automation#Stress Testing#Evaluation2025년 10월 1일댓글 수 로딩 중