[논문리뷰] Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding본 논문은 12명의 전문 주석자와 50명의 검토자가 3,300시간을 투입하여 구축한 Video-MME-v2 데이터셋을 통해 모델의 역량을 평가한다. 제안하는 방법론은 비디오 이해 능력을 3단계로 체계화하고, 질문을 그룹화하여 Consistency와 Coherence를 검증하는 그룹 기반 평가 전략을 포함한다.#Review#Video Understanding#Multimodal Large Language Models#Benchmark#Reasoning Coherence#Capability Consistency#Evaluation Hierarchy#Non-linear Scoring2026년 4월 7일댓글 수 로딩 중
[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous AgentsarXiv에 게시된 'Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Agents#Benchmark#Trajectory-aware Grading#Safety Evaluation#Robustness Testing#Multimodal Perception2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .#Review#Image Spatial Editing#Benchmark#Dataset#Geometry-Aware Evaluation#Camera Manipulation#Object Manipulation#Multimodal Large Models2026년 4월 6일댓글 수 로딩 중
[논문리뷰] FileGram: Grounding Agent Personalization in File-System Behavioral TracesZhe Yang이 arXiv에 게시한 'FileGram: Grounding Agent Personalization in File-System Behavioral Traces' 논문에 대한 자세한 리뷰입니다.#Review#Agent Personalization#File-System Behavioral Traces#Memory Framework#Multimodal Grounding#Benchmark2026년 4월 6일댓글 수 로딩 중
[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.#Review#AI Agents#Benchmark#Information Environments#Multi-source Reasoning#Belief Revision#Implicit Personalization2026년 4월 6일댓글 수 로딩 중
[논문리뷰] AgentHazard: A Benchmark for Evaluating Harmful Behavior in Computer-Use Agents저자들은 위험 카테고리(Risk categories)와 공격 전략(Attack strategies)을 포함한 체계적인 분류법을 설계하고, 이를 바탕으로 2,653개의 유해한 작업 인스턴스를 구축하였습니다 . 제안된 AgentHazard는 에이전트가 샌드박스 환경 내에서 작업을 수행하게 한 뒤, 전체 실행 경로를 심사하여 유해성 여부를 판별합니다.#Review#Computer-Use Agents#Agent Safety#Benchmark#Harmful Behavior#Trajectory-level Evaluation#Multi-step Reasoning2026년 4월 5일댓글 수 로딩 중
[논문리뷰] VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence VerificationarXiv에 게시된 'VideoZeroBench: Probing the Limits of Video MLLMs with Spatio-Temporal Evidence Verification' 논문에 대한 자세한 리뷰입니다.#Review#Video MLLM#Spatio-Temporal Grounding#Benchmark#Long-Video Understanding#Evidence Verification#Atomic Ability2026년 4월 2일댓글 수 로딩 중
[논문리뷰] MDPBench: A Benchmark for Multilingual Document Parsing in Real-World ScenariosShuo Zhang이 arXiv에 게시한 'MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Multilingual#Document Parsing#Benchmark#Photographed Documents#VLM#OCR2026년 4월 2일댓글 수 로딩 중
[논문리뷰] AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation본 논문은 학술 도해의 논리적 정확성과 미학적 품질을 분리하여 평가하는 AIBench를 제안한다. 논리 평가를 위해 논문 본문에서 논리 그래프를 추출하고, 이를 기반으로 4단계(Component, Topology, Phase, Semantics) 수준의 VQA 질문 세트를 자동으로 생성 및 인간 전문가가 검수한 데이터를 구축하였다 .#Review#Academic Illustration#Visual-Logical Consistency#Benchmark#VQA#Test-Time Scaling#Multimodal Evaluation2026년 4월 2일댓글 수 로딩 중
[논문리뷰] QuitoBench: A High-Quality Open Time Series Forecasting BenchmarkRui Wang이 arXiv에 게시한 'QuitoBench: A High-Quality Open Time Series Forecasting Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Time Series Forecasting#Benchmark#TSF Regime#Foundation Models#Deep Learning#Data Scaling#Forecastability2026년 4월 1일댓글 수 로딩 중
[sglang] Ascend NPU에서 Ring-SP 성능 벤치마크 페이지 추가Ascend NPU 플랫폼에서 Ring Sequence Parallelism의 성능 벤치마크 결과를 문서화한 페이지 추가#SGLang#NPU#Ascend#Ring-SP#Benchmark2026년 4월 1일댓글 수 로딩 중
[Ultralytics] SAM-2 문서에 YOLO26 벤치마크 및 참조 추가SAM-2 문서의 비교 벤치마크를 최신 YOLO26 모델 기준으로 업데이트하고, 테스트 환경을 ONNX Runtime으로 표준화합니다.#Ultralytics#YOLO26#SAM-2#Benchmark#Documentation2026년 3월 31일댓글 수 로딩 중
[Ultralytics] SAM 문서에 YOLO26 벤치마크 추가 및 비교 수치 갱신SAM 원본 모델의 비교 벤치마크에 YOLO26을 추가하고, ONNX Runtime 기준의 최신 테스트 결과로 업데이트합니다.#Ultralytics#YOLO26#SAM#Benchmark#Segmentation2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language ModelsarXiv에 게시된 'MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Chain-of-Thought#Monitorability#Benchmark#AI Safety#Stress-Test#Faithfulness2026년 3월 31일댓글 수 로딩 중
[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World TasksarXiv에 게시된 'ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Benchmark#Human Evaluation#Explainable AI#Multimodal Learning2026년 3월 30일댓글 수 로딩 중
[논문리뷰] GEditBench v2: A Human-Aligned Benchmark for General Image EditingarXiv에 게시된 'GEditBench v2: A Human-Aligned Benchmark for General Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Benchmark#Visual Consistency#Pairwise Evaluation#Human-Aligned#VLM-as-a-Judge2026년 3월 30일댓글 수 로딩 중
[Ray] LLM 추론 벤치마크 엔진에 동시성 모드와 일정 QPS 모드 추가다중 턴 LLM 벤치마크를 위한 Concurrency 모드(closed-loop)와 Rate 모드(constant-QPS)를 도입하고, 정확한 토큰 수 텍스트 생성기와 엔트로피 기반 웜업을 구현한 분석.#Ray#Python#LLM#Benchmark#Performance#Concurrency2026년 3월 30일댓글 수 로딩 중
[sglang] GB300 Nightly 벤치마크 테스트 스위트 추가SGLang CI에 NVIDIA GB300(Blackwell) 전용 nightly 벤치마크 테스트를 추가하고, NeMo Skills 기반 VLM 평가 인프라를 구축한 분석.#SGLang#CI#Benchmark#GB300#Blackwell#NeMo Skills#VLM2026년 3월 29일댓글 수 로딩 중
[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject GenerationQiang Liu이 arXiv에 게시한 'MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-subject Generation#Attribute Misbinding#Image Generation#Benchmark#Evaluation Protocol#Deep Learning#Computer Vision2026년 3월 24일댓글 수 로딩 중
[Gradio] 백엔드 프로파일링 및 벤치마크 인프라 구축서버 요청 처리 단계별 타이밍을 추적하는 profiling 모듈과 벤치마크 스크립트를 추가한다#Gradio#Profiling#Benchmark#Observability2026년 3월 24일댓글 수 로딩 중
[Axolotl] ScatterMoE LoRA 최적화: 벤치마크, 커널 분할, autograd 통합ScatterMoE LoRA Triton 커널에 벤치마크 도구를 추가하고, large expert 모델에서 fused/split forward 자동 선택 및 autograd 통합을 최적화한 분석.#Axolotl#ScatterMoE#LoRA#Triton#MoE#Benchmark#GPU#Performance2026년 3월 19일댓글 수 로딩 중
[논문리뷰] VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool ChainingZhipeng Wu이 arXiv에 게시한 'VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Visual Tool Chaining#Agentic Models#Benchmark#OpenCV#Compositional Reasoning#Tool-use Evaluation2026년 3월 19일댓글 수 로딩 중
[논문리뷰] Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol UnderstandingJunnan Dong이 arXiv에 게시한 'Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Discrete Symbols#Cognitive Mismatch#Symbol Understanding#Benchmark#Recognition-Reasoning Inversion#Human Cognition2026년 3월 19일댓글 수 로딩 중
[논문리뷰] BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMsarXiv에 게시된 'BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Personalization#Persistent Memory#Context-Awareness#Preference Selectivity#Benchmark#Misapplication Rate#Appropriate Application Rate2026년 3월 18일댓글 수 로딩 중
[논문리뷰] SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni ModelsYuhuiZeng이 arXiv에 게시한 'SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal LLMs#Social Interactivity#Benchmark#Speaker Identification#Turn-taking#Interruption Generation#Audio-Visual Integration2026년 3월 17일댓글 수 로딩 중
[논문리뷰] AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using AgentsarXiv에 게시된 'AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents' 논문에 대한 자세한 리뷰입니다.#Review#Large language models#Process reward models#Tool-using agents#Step-level evaluation#Agent trajectories#Benchmark2026년 3월 17일댓글 수 로딩 중
[논문리뷰] Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document CollectionsarXiv에 게시된 'Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Document QA#Agentic Reasoning#RAG#Benchmark#PDFs#Effort Calibration2026년 3월 12일댓글 수 로딩 중
[논문리뷰] CodePercept: Code-Grounded Visual STEM Perception for MLLMsarXiv에 게시된 'CodePercept: Code-Grounded Visual STEM Perception for MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#STEM Visual Reasoning#Code-Grounded Perception#Image-to-Code Translation#Data Generation#Benchmark#Reinforcement Learning#Matplotlib2026년 3월 11일댓글 수 로딩 중
[논문리뷰] VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?arXiv에 게시된 'VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Comparative Reasoning#Subtle Differences#Benchmark#Multi-modal AI#Image Comparison#VQA#Fine-grained Analysis2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in SportsYuqing Shao이 arXiv에 게시한 'Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Vision-Language Models#Sports Analytics#3D Reconstruction#Dataset#Benchmark#Racket Sports#Human-Centric AI2026년 3월 10일댓글 수 로딩 중
[논문리뷰] MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered AssistantsYuante Li이 arXiv에 게시한 'MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Code Generation#HTML#Interactive Applications#Benchmark#MINIAPPBENCH#Agentic Evaluation#MINIAPPEVAL#Real-World Principles#Human-AI Interaction2026년 3월 10일댓글 수 로딩 중
[논문리뷰] Do What I Say: A Spoken Prompt Dataset for Instruction-FollowingMarek Kasztelnik이 arXiv에 게시한 'Do What I Say: A Spoken Prompt Dataset for Instruction-Following' 논문에 대한 자세한 리뷰입니다.#Review#Speech Language Models#Instruction Following#Multilingual Dataset#Spoken Prompts#Benchmark#SLLM Evaluation#Prompt Diversity2026년 3월 10일댓글 수 로딩 중
[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation AgentsHongsheng Li이 arXiv에 게시한 'PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents' 논문에 대한 자세한 리뷰입니다.#Review#Proactive Agents#GUI Automation#Intent Recommendation#Multimodal LLMs#Benchmark#Memory-aware Framework#Human-Computer Interaction2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Lost in Stories: Consistency Bugs in Long Story Generation by LLMsHongzhi Li이 arXiv에 게시한 'Lost in Stories: Consistency Bugs in Long Story Generation by LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Story Generation#Narrative Consistency#Benchmark#Automated Evaluation#Error Analysis#Long-Form Text Generation#Consistency Error Density (CED)2026년 3월 9일댓글 수 로딩 중
[논문리뷰] RoboMME: Benchmarking and Understanding Memory for Robotic Generalist PoliciesHaoran Zhang이 arXiv에 게시한 'RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies' 논문에 대한 자세한 리뷰입니다.#Review#Robotics#Memory#Benchmark#Manipulation#Vision-Language-Action Models#Temporal Memory#Spatial Memory#Procedural Memory2026년 3월 8일댓글 수 로딩 중
[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual ScenariosarXiv에 게시된 'AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Visual Reasoning#Tool Use#Benchmark#Long-Horizon Tasks#Realistic Scenarios#Agentic Intelligence2026년 3월 5일댓글 수 로딩 중
[논문리뷰] SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous IntegrationBing Zhao이 arXiv에 게시한 'SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Software Engineering#Code Maintenance#Continuous Integration#Benchmark#Code Generation#Long-term Evaluation#Technical Debt2026년 3월 4일댓글 수 로딩 중
[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMsarXiv에 게시된 'RIVER: A Real-Time Interaction Benchmark for Video LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Real-time Interaction#Video Understanding#Benchmark#Temporal Reasoning#Long-term Memory#Proactive Response2026년 3월 4일댓글 수 로딩 중
[논문리뷰] UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?Xiaoyu Chen이 arXiv에 게시한 'UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Models#Multimodal Understanding#Generation-to-Understanding#Benchmark#Vision-Language Models#Generate-then-Answer#Model Evaluation2026년 3월 3일댓글 수 로딩 중
[논문리뷰] MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image ReasoningarXiv에 게시된 'MMR-Life: Piecing Together Real-life Scenes for Multimodal Multi-image Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Multi-Image Analysis#Real-life Scenarios#Benchmark#MLLMs Evaluation#Chain-of-Thought#Reasoning Types2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Legal RAG Bench: an end-to-end benchmark for legal RAGarXiv에 게시된 'Legal RAG Bench: an end-to-end benchmark for legal RAG' 논문에 대한 자세한 리뷰입니다.#Review#Retrieval-Augmented Generation (RAG)#Legal AI#Benchmark#Evaluation Methodology#Embedding Models#Large Language Models (LLMs)#Error Decomposition#Information Retrieval2026년 3월 2일댓글 수 로딩 중
[Ray Serve] Controller 마이크로벤치마크 공식 추가Serve Controller의 루프 속도, 이벤트 루프 지연, 메모리 사용량 등을 측정하는 공식 벤치마크 도입.#Ray#Python#Performance#Benchmark#Serve2026년 3월 1일댓글 수 로딩 중
[논문리뷰] DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing ModelFengJiao Chen이 arXiv에 게시한 'DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Instruction-based Models#Small Object Editing#Benchmark#Evaluation Metrics#Large Multimodal Models (LMMs)#Visual Consistency2026년 3월 1일댓글 수 로딩 중
[논문리뷰] CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM EraarXiv에 게시된 'CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era' 논문에 대한 자세한 리뷰입니다.#Review#LLM Hallucination#Citation Verification#Multi-Agent System#Benchmark#Fact Checking#Scientific Integrity#Information Retrieval#Qwen3-VL2026년 3월 1일댓글 수 로딩 중
[논문리뷰] OmniGAIA: Towards Native Omni-Modal AI AgentsGuanting Dong이 arXiv에 게시한 'OmniGAIA: Towards Native Omni-Modal AI Agents' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal AI#Multi-modal Agents#Tool-Integrated Reasoning#Benchmark#Event Graph#Active Perception#Trajectory Synthesis#DPO2026년 2월 26일댓글 수 로딩 중
[논문리뷰] LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line InterfacesChuanhao Li이 arXiv에 게시한 'LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Programming#CLI#Benchmark#Long-horizon Tasks#Code Generation#LLM Evaluation#Human-Agent Collaboration#Software Engineering2026년 2월 24일댓글 수 로딩 중
[논문리뷰] A Very Big Video Reasoning SuitearXiv에 게시된 'A Very Big Video Reasoning Suite' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Large-scale Dataset#Benchmark#Cognitive Architecture#Scaling Studies#Video Generation#Generalization#Rule-based Evaluation2026년 2월 23일댓글 수 로딩 중
[faster-qwen3-tts] 모드 간 성능 동등성 검증 및 벤치마크 비교 문서화VoiceClone, CustomVoice, ICL 모드가 CUDA graph 캡처 후 동일한 성능을 보이는지 검증하고 벤치마크를 문서화한다#faster-qwen3-tts#TTS#Benchmark#Documentation2026년 2월 21일댓글 수 로딩 중
[faster-qwen3-tts] README 비스트리밍 RTF 수치 업데이트Jetson AGX Orin의 non-streaming RTF을 1.36에서 1.57로 업데이트하여 최신 벤치마크를 반영한다#faster-qwen3-tts#TTS#Documentation#Benchmark2026년 2월 20일댓글 수 로딩 중
[Grafana Loki] 루프 언롤링된 Uvarint 디코더로 delta 인코딩 최적화표준 라이브러리 Varint 디코더를 루프 언롤링 버전으로 교체하여 delta 디코딩에서 최대 51% 속도 향상을 달성한 분석.#Grafana Loki#Go#Performance#Encoding#Benchmark#Data Object2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] Jetson Thor 벤치마크, streaming TTFA 측정, 블로그 재작성Jetson Thor 결과를 추가하고, streaming TTFA 측정 방식을 개선하며 블로그 포스트의 수치를 업데이트한다#faster-qwen3-tts#TTS#Benchmark#Jetson2026년 2월 20일댓글 수 로딩 중
[faster-qwen3-tts] Jetson Thor 벤치마크 결과 추가NVIDIA Jetson Thor에서의 벤치마크 결과를 README와 블로그에 추가한다#faster-qwen3-tts#TTS#Benchmark#Jetson Thor2026년 2월 20일댓글 수 로딩 중
[논문리뷰] MAEB: Massive Audio Embedding BenchmarkarXiv에 게시된 'MAEB: Massive Audio Embedding Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Audio Embedding#Benchmark#Multimodal#Zero-shot Classification#Clustering#Representation Learning#MTEB Ecosystem#Cross-modal Audio-Text#Multilingual Audio2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Learning Situated Awareness in the Real WorldRajiv Dhawan이 arXiv에 게시한 'Learning Situated Awareness in the Real World' 논문에 대한 자세한 리뷰입니다.#Review#Situated Awareness#Egocentric Vision#Spatial Reasoning#Multimodal Foundation Models#Video Understanding#Benchmark#Real-world Data2026년 2월 18일댓글 수 로딩 중
[논문리뷰] ResearchGym: Evaluating Language Model Agents on Real-World AI ResearchArman Cohan이 arXiv에 게시한 'ResearchGym: Evaluating Language Model Agents on Real-World AI Research' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#AI Research#Benchmark#Closed-loop Research#Agent Evaluation#Reproducibility#Real-world Tasks2026년 2월 17일댓글 수 로딩 중
[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing AgentsYanzhe Dan이 arXiv에 게시한 'BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Web Browsing Agents#Deep Search#Benchmark#Tool Use#Process Evaluation#Multimodal Reasoning#Open-world QA2026년 2월 16일댓글 수 로딩 중
[논문리뷰] GENIUS: Generative Fluid Intelligence Evaluation SuiteZijun Shen이 arXiv에 게시한 'GENIUS: Generative Fluid Intelligence Evaluation Suite' 논문에 대한 자세한 리뷰입니다.#Review#Generative Fluid Intelligence#UMM Evaluation#Visual Generation#Ad-hoc Reasoning#Contextual Adaptation#Benchmark#Attention Intervention2026년 2월 11일댓글 수 로딩 중
[논문리뷰] EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive EconomiesYishuo Yuan이 arXiv에 게시한 'EcoGym: Evaluating LLMs for Long-Horizon Plan-and-Execute in Interactive Economies' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Long-Horizon Planning#Interactive Economies#Benchmark#Agentic AI#Economic Simulation#Plan-and-Execute2026년 2월 11일댓글 수 로딩 중
[Triton] grouped_gemm 벤치마크 min/max ms 반환 순서 수정perf_report에서 error bar가 뒤집히는 문제를 반환값 순서 교정으로 해결#Triton#Tutorial#Bug Fix#Benchmark2026년 2월 11일댓글 수 로딩 중
[논문리뷰] GISA: A Benchmark for General Information-Seeking AssistantarXiv에 게시된 'GISA: A Benchmark for General Information-Seeking Assistant' 논문에 대한 자세한 리뷰입니다.#Review#Search Agents#Information Seeking#Benchmark#LLM-driven Agents#Human Trajectories#Deep and Wide Search#Deterministic Evaluation#Dynamic Evaluation2026년 2월 9일댓글 수 로딩 중
[논문리뷰] GEBench: Benchmarking Image Generation Models as GUI EnvironmentsarXiv에 게시된 'GEBench: Benchmarking Image Generation Models as GUI Environments' 논문에 대한 자세한 리뷰입니다.#Review#GUI Generation#Image Generation Models#Benchmark#Temporal Coherence#Spatial Grounding#Evaluation Metric#Vision Language Models2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge AcquisitionarXiv에 게시된 'Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition' 논문에 대한 자세한 리뷰입니다.#Review#Video Understanding#In-Context Learning#Procedural Knowledge#Multimodal LLMs#Benchmark#Direct Preference Optimization#Demonstration Selection2026년 2월 9일댓글 수 로딩 중
[논문리뷰] PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use TasksZhixin Wang이 arXiv에 게시한 'PlanViz: Evaluating Planning-Oriented Image Generation and Editing for Computer-Use Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Models#Image Generation#Image Editing#Benchmark#Computer-Use Tasks#Planning#Evaluation Metrics2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning CapabilitiesarXiv에 게시된 'Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities' 논문에 대한 자세한 리뷰입니다.#Review#Retrieval-Augmented Generation#Large Language Models#Reasoning#Benchmark#Deep Search#Error Analysis#Scientific Problem Solving#Context Understanding2026년 2월 5일댓글 수 로딩 중
[논문리뷰] RISE-Video: Can Video Generators Decode Implicit World Rules?Zicheng Zhang이 arXiv에 게시한 'RISE-Video: Can Video Generators Decode Implicit World Rules?' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Implicit Reasoning#Benchmark#Evaluation#Large Multimodal Models (LMMs)#Text-Image-to-Video (TI2V)2026년 2월 5일댓글 수 로딩 중
[논문리뷰] HY3D-Bench: Generation of 3D AssetsarXiv에 게시된 'HY3D-Bench: Generation of 3D Assets' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#Dataset#Benchmark#AIGC#Watertight Mesh#Part-level Decomposition#Foundation Model#Robotics2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia ArticlesarXiv에 게시된 'Wiki Live Challenge: Challenging Deep Research Agents with Expert-Level Wikipedia Articles' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#LLM Evaluation#Wikipedia#Good Articles#Factuality#Writing Quality#Benchmark#Hallucinations#Verifiability2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language ModelsShuang Chen이 arXiv에 게시한 'Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Visual Question Answering#Deep Research#Benchmark#Visual Search#Textual Search#Cropped Search#Evaluation2026년 2월 2일댓글 수 로딩 중
[논문리뷰] Toward Cognitive Supersensing in Multimodal Large Language ModelYifan Xu이 arXiv에 게시한 'Toward Cognitive Supersensing in Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Cognitive Reasoning#Visual Imagery#Latent Representations#Reinforcement Learning#Visual Question Answering#Benchmark2026년 2월 2일댓글 수 로딩 중
[논문리뷰] TAM-Eval: Evaluating LLMs for Automated Unit Test MaintenanceDaniil Grebenkin이 arXiv에 게시한 'TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Unit Test Maintenance#Software Engineering#Code Generation#Test Repair#Test Updating#Benchmark#Mutation Testing#Code Coverage2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image ModelsarXiv에 게시된 'Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Models#Spatial Intelligence#Benchmark#Evaluation#Prompt Engineering#Multimodal LLMs#Fine-tuning#Spatial Reasoning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research AgentsarXiv에 게시된 'DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Deep Research#Benchmark#Information Retrieval#Comprehensiveness#Multi-step Reasoning#Evaluation#LLM-as-a-Judge2026년 1월 29일댓글 수 로딩 중
[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment RolloutsarXiv에 게시된 'AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts' 논문에 대한 자세한 리뷰입니다.#Review#Long-Context LLMs#Autonomous Agents#Benchmark#Environment Rollouts#State Tracking#Tool Use#Memory Evaluation#Lateral Thinking Puzzles2026년 1월 29일댓글 수 로딩 중
[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and ThinkingarXiv에 게시된 'AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Benchmark#Cultural Understanding#Contextual Inference#Audio-Visual Memes#Multilingual#Q&A Evaluation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal AgentsarXiv에 게시된 'VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Vision-Language Models (VLMs)#Interactive AI#Reinforcement Learning Environments#Benchmark#Decision-Making#Diagnostic Tools#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image EditingDingkun Long이 arXiv에 게시한 'Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research AgentsSamiul Alam이 arXiv에 게시한 'MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Deep Research#Research Agents#Benchmark#Evaluation Framework#Retrieval-Augmented Generation#Large Multimodal Models#Visual Grounding#Citation Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using AgentsarXiv에 게시된 'ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents' 논문에 대한 자세한 리뷰입니다.#Review#Process Reward Models#Tool-using Agents#Benchmark#Reinforcement Learning#Large Language Models#Reward-guided Search#Agent Evaluation#Step-level Rewards2026년 1월 20일댓글 수 로딩 중
[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMsarXiv에 게시된 'FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Future Forecasting#Audio-Visual Reasoning#Benchmark#Instruction Tuning#Omni-Modal#Causal Reasoning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning ProblemsXipeng Qiu이 arXiv에 게시한 'AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Space Planning#Benchmark#Agentic Planning#Physics Constraints#Decision Making#Zero-Shot Learning2026년 1월 18일댓글 수 로딩 중
[Loki] 데이터 오브젝트 Plain Value 디코더 최적화로 처리량 93% 향상Grafana Loki의 dataobj에서 Plain Value 디코더를 Arrow 스타일 메모리 표현, []byte 기반 디코딩, 포인터 간접 참조 최소화로 재작성하여 디코딩 처리량을 93% 향상시킨 최적화를 분석합니다.#Grafana Loki#Go#Performance#Decoder#Memory Optimization#Benchmark2026년 1월 15일댓글 수 로딩 중
[Grafana Loki] 델타 디코더 벤치마크 개선 및 Decode 메서드 성능 측정 추가단일 값 decode 벤치마크를 배치 단위 Decode 메서드 벤치마크로 재작성하고, 처리량 메트릭과 errors.Is 최적화를 추가한 분석.#Grafana Loki#Go#Performance#Benchmark#Encoding2026년 1월 14일댓글 수 로딩 중
[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video ReasoningShuo Zhang이 arXiv에 게시한 'Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Question Answering#Open-domain Search#Multimodal LLMs#Agentic AI#Benchmark#Video Understanding#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous DrivingarXiv에 게시된 'DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Generative World Models#Autonomous Driving#Video Generation#Benchmark#Evaluation Metrics#Trajectory Prediction#Temporal Consistency#Data Diversity2026년 1월 12일댓글 수 로딩 중
[논문리뷰] BabyVision: Visual Reasoning Beyond LanguageYiyan Liang이 arXiv에 게시한 'BabyVision: Visual Reasoning Beyond Language' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Reasoning#Benchmark#Early Vision#Spatial Perception#Visual Tracking#Pattern Recognition#Generative Models2026년 1월 12일댓글 수 로딩 중
[Ray Train] 벤치마크에 첫 번째 배치 시간 포함하여 정확한 처리량 측정iter_first_batch 시간을 벤치마크 처리량 계산에 포함하여 preserve-order 비교 왜곡 해결.#Ray#Python#Performance#Benchmark#Training2026년 1월 8일댓글 수 로딩 중
[논문리뷰] EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and ReasoningGuanchen Wu이 arXiv에 게시한 'EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Epidemiological Question Answering#Large Language Models#Benchmark#Multi-step Inference#Evidence Grounding#LLM Evaluation#Public Health AI#Chain-of-Thought2026년 1월 7일댓글 수 로딩 중
[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open WebKaixin Liang이 arXiv에 게시한 'Video-BrowseComp: Benchmarking Agentic Video Research on Open Web' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Video Understanding#Web Browsing#Benchmark#Multimodal LLMs#Temporal Grounding#Cross-Source Reasoning#Information Seeking2025년 12월 29일댓글 수 로딩 중
[논문리뷰] VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active DialogsXihui Liu이 arXiv에 게시한 'VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Vision and Language Navigation#Instance Object Navigation#Active Dialog#Large Language Models (LLMs)#Benchmark#Human-Robot Interaction2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SVBench: Evaluation of Video Generation Models on Social ReasoningXiaojie Xu이 arXiv에 게시한 'SVBench: Evaluation of Video Generation Models on Social Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Social Reasoning#Benchmark#Evaluation#Agent-based Pipeline#Vision-Language Models#Social Cognition2025년 12월 28일댓글 수 로딩 중
[논문리뷰] TokSuite: Measuring the Impact of Tokenizer Choice on Language Model BehaviorarXiv에 게시된 'TokSuite: Measuring the Impact of Tokenizer Choice on Language Model Behavior' 논문에 대한 자세한 리뷰입니다.#Review#Tokenizer#Language Models (LMs)#Robustness#Multilingual NLP#Benchmark#Subword Segmentation#Pre-training#Tokenization Impact2025년 12월 24일댓글 수 로딩 중
[논문리뷰] T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video GenerationarXiv에 게시된 'T2AV-Compass: Towards Unified Evaluation for Text-to-Audio-Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Audio-Video Generation#Multimodal Evaluation#Benchmark#MLLM-as-a-Judge#Cross-modal Alignment#Instruction Following#Perceptual Realism#Audio Realism2025년 12월 24일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMsarXiv에 게시된 'SpatialTree: How Spatial Abilities Branch Out in MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] HERBench: A Benchmark for Multi-Evidence Integration in Video Question AnsweringarXiv에 게시된 'HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering' 논문에 대한 자세한 리뷰입니다.#Review#Video Question Answering#Multi-evidence Integration#Video-LLMs#Benchmark#Temporal Reasoning#Frame Selection#Evidential Requirement#MRFS2025년 12월 21일댓글 수 로딩 중
[논문리뷰] GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional EvaluationarXiv에 게시된 'GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Grounding#MLLMs#Benchmark#Multi-Dimensional Evaluation#Rejection Capability#Test-Time Scaling#Data Mixture Training2025년 12월 21일댓글 수 로딩 중
[논문리뷰] VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding TasksarXiv에 게시된 'VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#Multi-Platform#Benchmark#MLLM#Hierarchical Evaluation#Human-in-the-Loop Annotation#GUI Agents#Multilingual Dataset2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and ImagearXiv에 게시된 'Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image' 논문에 대한 자세한 리뷰입니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?arXiv에 게시된 'VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Text Compression (VTC)#Long Context Understanding#Vision-Language Models (VLMs)#Benchmark#Information Retrieval#Associative Reasoning#Multimodal AI2025년 12월 17일댓글 수 로딩 중
[논문리뷰] NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agentschongyang09이 arXiv에 게시한 'NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents' 논문에 대한 자세한 리뷰입니다.#Review#Coding Agents#LLMs#Software Engineering#Repository Generation#Long-Horizon Reasoning#Benchmark#Python Development#Autonomous Systems2025년 12월 15일댓글 수 로딩 중
[논문리뷰] EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commercearXiv에 게시된 'EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce' 논문에 대한 자세한 리뷰입니다.#Review#E-commerce#Foundation Agents#LLM Agents#Benchmark#Agent Evaluation#Tool Use#Multi-step Reasoning#Real-world Scenarios2025년 12월 9일댓글 수 로딩 중
[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense EvaluationSimeng Qin이 arXiv에 게시한 'OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video EditingarXiv에 게시된 'EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[triton] 벤치마크에서 symmetric memory 해제분산 환경 벤치마크와 테스트에서 각 실행 후 symmetric memory pool을 명시적으로 해제하여 메모리 누수를 방지하도록 개선한 PR을 분석합니다.#Triton#Benchmark#Distributed#Memory Management2025년 12월 5일댓글 수 로딩 중
[Triton] Hopper에서 소규모 배치 크기 벤치마크 수정Hopper GPU에서 small batch MLP 벤치마크의 num_warps 설정과 테스트 케이스 추가#Triton#Benchmark#Hopper#MLP#Bug Fix2025년 12월 4일댓글 수 로딩 중
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AIHumphrey Shi이 arXiv에 게시한 'PAI-Bench: A Comprehensive Benchmark For Physical AI' 논문에 대한 자세한 리뷰입니다.#Review#Physical AI#Benchmark#Video Generation#Conditional Video Generation#Video Understanding#Multimodal LLMs#Physical Plausibility#Embodied Reasoning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming VideosarXiv에 게시된 'StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video Understanding#Gaze-Guided AI#Temporal Reasoning#Proactive AI#MLLMs#Eye Tracking#Benchmark#Human-Computer Interaction2025년 12월 1일댓글 수 로딩 중
[논문리뷰] IndicParam: Benchmark to evaluate LLMs on low-resource Indic LanguagesarXiv에 게시된 'IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages' 논문에 대한 자세한 리뷰입니다.#Review#Low-resource Languages#Indic Languages#LLM Evaluation#Benchmark#Multilingual LLMs#Question Answering#Cross-lingual Transfer2025년 12월 1일댓글 수 로딩 중
[논문리뷰] RefineBench: Evaluating Refinement Capability of Language Models via ChecklistsarXiv에 게시된 'RefineBench: Evaluating Refinement Capability of Language Models via Checklists' 논문에 대한 자세한 리뷰입니다.#Review#Language Models#Refinement Capability#Self-Refinement#Guided Refinement#Checklist Evaluation#Multi-turn Interaction#Benchmark2025년 11월 30일댓글 수 로딩 중
[논문리뷰] OralGPT-Omni: A Versatile Dental Multimodal Large Language ModelarXiv에 게시된 'OralGPT-Omni: A Versatile Dental Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Model (MLLM)#Dental Imaging Analysis#Chain-of-Thought (CoT) Reasoning#Medical AI#Benchmark#Diagnosis#Oral Healthcare#Explainable AI2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-FollowingarXiv에 게시된 'Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Judges#LMM Evaluation#Pluralistic Criteria#Criteria-Following#Trade-off Sensitivity#Conflict Resolution#Reward Models#Benchmark2025년 11월 27일댓글 수 로딩 중
[논문리뷰] VQ-VA World: Towards High-Quality Visual Question-Visual AnsweringFeng Li이 arXiv에 게시한 'VQ-VA World: Towards High-Quality Visual Question-Visual Answering' 논문에 대한 자세한 리뷰입니다.#Review#Visual Question Answering (VQA)#Image Generation#Data-centric AI#Agentic Pipeline#Multimodal Models#Web-scale Data#Benchmark#LightFusion2025년 11월 25일댓글 수 로딩 중
[논문리뷰] DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC DetectionMike Zheng Shou이 arXiv에 게시한 'DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection' 논문에 대한 자세한 리뷰입니다.#Review#AIGC Detection#Diffusion Models#Image Editing#Semantic Segmentation#Localization#Model Attribution#Benchmark#Multi-turn Editing2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?Zhaowei Lu이 arXiv에 게시한 'Target-Bench: Can World Models Achieve Mapless Path Planning with Semantic Targets?' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Mapless Navigation#Semantic Path Planning#Robot Learning#Video Prediction#Benchmark#Trajectory Generation2025년 11월 24일댓글 수 로딩 중
[논문리뷰] AutoEnv: Automated Environments for Measuring Cross-Environment Agent LearningAlphamasterliu이 arXiv에 게시한 'AutoEnv: Automated Environments for Measuring Cross-Environment Agent Learning' 논문에 대한 자세한 리뷰입니다.#Review#Automated Environment Generation#Cross-Environment Learning#Agent Learning#Language Models#Benchmark#Meta-Learning#Reinforcement Learning#Environment Design Language2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMsarXiv에 게시된 'Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs' 논문에 대한 자세한 리뷰입니다.#Review#LLM Sycophancy#Model Robustness#AI Alignment#Benchmark#Confidence Calibration#Behavioral Taxonomy#Social Influence#Epistemic Collapse2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving TasksYiran Peng이 arXiv에 게시한 'Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific ReasoningYuqiang Li이 arXiv에 게시한 'ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Benchmark#LLMs#Scientific Reasoning#Multidisciplinary#AI4S#Data Contamination#Evaluation#LRM-as-Judge2025년 11월 18일댓글 수 로딩 중
[논문리뷰] GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal ModelsSiyuan Li이 arXiv에 게시한 'GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Generative Reasoning#Geometric Construction#Benchmark#GeoGebra#Code-based Evaluation#Unified Models2025년 11월 16일댓글 수 로딩 중
[논문리뷰] ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research AgentsarXiv에 게시된 'ResearchRubrics: A Benchmark of Prompts and Rubrics For Evaluating Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#LLM Evaluation#Benchmark#Rubrics#Multi-step Reasoning#Cross-document Synthesis#AI Performance#Task Complexity2025년 11월 13일댓글 수 로딩 중
[논문리뷰] MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal CritiquearXiv에 게시된 'MM-CRITIC: A Holistic Evaluation of Large Multimodal Models as Multimodal Critique' 논문에 대한 자세한 리뷰입니다.#Review#LMMs#Multimodal Critique#Benchmark#Evaluation#Reward Model#GPT-4o#Scaling Law2025년 11월 13일댓글 수 로딩 중
[논문리뷰] Too Good to be Bad: On the Failure of LLMs to Role-Play VillainsarXiv에 게시된 'Too Good to be Bad: On the Failure of LLMs to Role-Play Villains' 논문에 대한 자세한 리뷰입니다.#Review#LLM#Role-playing#Safety Alignment#Villain#Persona Simulation#Moral Alignment#Benchmark#Character Fidelity2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using AgentsarXiv에 게시된 'GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive CapacityarXiv에 게시된 'MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Benchmark#Cognitive Capacity#Visual Reasoning#MLLM Evaluation#Error Analysis#Chain-of-Thought2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool AugmentationSoohyun Oh이 arXiv에 게시한 'LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Synthesis#Fine-Grained Evaluation#Tool-Augmented LLMs#Embodied AI#Vision-Language Models#Benchmark#Multi-Hop Grounding2025년 11월 9일댓글 수 로딩 중
[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-ThoughtarXiv에 게시된 'When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Reasoning#Chain-of-Thought (CoT)#Benchmark#Image Generation#MLLMs#Visual-CoT2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual RepresentationarXiv에 게시된 'VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] RiddleBench: A New Generative Reasoning Benchmark for LLMsarXiv에 게시된 'RiddleBench: A New Generative Reasoning Benchmark for LLMs' 논문에 대한 자세한 리뷰입니다.#Review#LLM Reasoning#Generative AI#Benchmark#Logical Deduction#Spatial Reasoning#Constraint Satisfaction#Hallucination Cascade#Self-Correction2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them DrawarXiv에 게시된 'LTD-Bench: Evaluating Large Language Models by Letting Them Draw' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal ModelsShijie Dong이 arXiv에 게시한 'Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Multimodal Models#Visual Token Compression#Token Pruning#Benchmark#Efficiency#Inference Latency#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing BenchmarkarXiv에 게시된 'UniREditBench: A Unified Reasoning-based Image Editing Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Reasoning-based AI#Benchmark#Multimodal Learning#Chain-of-Thought (CoT)#Dual-Reference Evaluation#Generative Models#Game AI2025년 11월 9일댓글 수 로딩 중
[triton] Tutorials: 벤치마크 결과 테이블에 단위(units) 표시 추가Triton 튜토리얼의 벤치마크 결과 테이블 컬럼에 ylabel 단위를 포함시켜 결과의 가독성을 개선한 변경 분석.#Triton#Tutorial#Benchmark#UX#Python2025년 11월 4일댓글 수 로딩 중
[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and EvaluationarXiv에 게시된 'The Quest for Generalizable Motion Generation: Data, Model, and Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Generation#Generalization#Diffusion Models#Transformer#Large-scale Dataset#Benchmark#Multimodal Learning#Video Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense AlignmentarXiv에 게시된 'ChartAB: A Benchmark for Chart Grounding & Dense Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models (VLMs)#Chart Understanding#Visual Grounding#Dense Alignment#Benchmark#Robustness#Multimodal Learning2025년 10월 31일댓글 수 로딩 중
[논문리뷰] CRAG-MM: Multi-modal Multi-turn Comprehensive RAG BenchmarkarXiv에 게시된 'CRAG-MM: Multi-modal Multi-turn Comprehensive RAG Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Multi-modal RAG#Benchmark#Wearable AI#Multi-turn Conversation#Egocentric Images#Knowledge Graph#Web Search#Hallucination2025년 10월 31일댓글 수 로딩 중
[논문리뷰] AMO-Bench: Large Language Models Still Struggle in High School Math CompetitionsarXiv에 게시된 'AMO-Bench: Large Language Models Still Struggle in High School Math Competitions' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Mathematical Reasoning#Olympiad-level Math#Benchmark#Performance Saturation#Test-time Scaling#AMO-Bench2025년 10월 31일댓글 수 로딩 중
[논문리뷰] BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic DomainsarXiv에 게시된 'BhashaBench V1: A Comprehensive Benchmark for the Quadrant of Indic Domains' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models (LLMs)#Benchmark#Indic Languages#Multilingual Evaluation#Domain-Specific AI#India-centric Knowledge Systems#Zero-Shot Learning#Question Answering2025년 10월 30일댓글 수 로딩 중
[논문리뷰] VisJudge-Bench: Aesthetics and Quality Assessment of VisualizationsJiayi Zhang이 arXiv에 게시한 'VisJudge-Bench: Aesthetics and Quality Assessment of Visualizations' 논문에 대한 자세한 리뷰입니다.#Review#Visualization Quality Assessment#MLLMs#Benchmark#Aesthetics#Fidelity#Expressiveness#Fine-tuning#Reinforcement Learning2025년 10월 29일댓글 수 로딩 중
[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D IntelligencearXiv에 게시된 'STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Audio Intelligence#Spatio-Temporal Reasoning#4D Audio#Benchmark#Large Audio-Language Models#Perceptual Reasoning#Multimodal LLMs2025년 10월 29일댓글 수 로딩 중
[논문리뷰] PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text EmbeddingDenis Cavallucci이 arXiv에 게시한 'PatenTEB: A Comprehensive Benchmark and Model Family for Patent Text Embedding' 논문에 대한 자세한 리뷰입니다.#Review#Patent Text Embedding#Benchmark#Multi-task Learning#Patent Retrieval#Sentence Embeddings#Knowledge Distillation#Cross-Domain Retrieval#Prompt Engineering2025년 10월 29일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use AgentsarXiv에 게시된 'OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Agents#Tool Invocation#Benchmark#Model Context Protocol (MCP)#GUI Automation#Computer-Use Agents#Evaluation Metrics2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form PreferencesarXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language ModelsarXiv에 게시된 'SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Knowledge Editing#Audio-Language Models#Auditory Attributes#Benchmark#Reliability#Generality#Locality#Portability2025년 10월 24일댓글 수 로딩 중
[논문리뷰] Diff-XYZ: A Benchmark for Evaluating Diff UnderstandingarXiv에 게시된 'Diff-XYZ: A Benchmark for Evaluating Diff Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Diff Understanding#Code Diff#Benchmark#LLMs#Code Editing#Software Engineering#Unified Diff Format#Search-Replace2025년 10월 24일댓글 수 로딩 중
[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone AgentsarXiv에 게시된 'DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Fine-tuning#Data Mixing Optimization#Mobile Phone Agents#Downstream Task Prediction#Benchmark#Neural Networks2025년 10월 23일댓글 수 로딩 중
[논문리뷰] UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image GenerationYujie Zhou이 arXiv에 게시한 'UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Semantic Evaluation#Benchmark#Multilingual Evaluation#Fine-grained Assessment#Large Language Models#Model Evaluation#Prompt Engineering2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal InconsistenciesJames Glass이 arXiv에 게시한 'PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies' 논문에 대한 자세한 리뷰입니다.#Review#Large Multimodal Models (LMMs)#Scientific Document Analysis#Multimodal Inconsistencies#Peer Review#Benchmark#Debiasing#JSON-based Representation#Reasoning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn DialoguesarXiv에 게시된 'MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Benchmark#Multi-Turn Dialogues#Perceptivity#Interactivity#Evaluation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] IF-VidCap: Can Video Caption Models Follow Instructions?arXiv에 게시된 'IF-VidCap: Can Video Caption Models Follow Instructions?' 논문에 대한 자세한 리뷰입니다.#Review#Video Captioning#Instruction Following#MLLMs#Benchmark#Controllable Generation#Multimodal Evaluation#Fine-tuning2025년 10월 22일댓글 수 로딩 중
[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial IntelligencearXiv에 게시된 'DSI-Bench: A Benchmark for Dynamic Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Dynamic Spatial Reasoning#Vision-Language Models (VLMs)#Benchmark#Video Understanding#Motion Perception#3D Spatial Intelligence#Hallucinations#Bias2025년 10월 22일댓글 수 로딩 중
[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?Kaiwen Zhu이 arXiv에 게시한 'PICABench: How Far Are We from Physically Realistic Image Editing?' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Physical Realism#Benchmark#VLM-as-a-Judge#Synthetic Data#Physics-Aware AI#Diffusion Models#Evaluation Metrics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language ModelsarXiv에 게시된 'MultiVerse: A Multi-Turn Conversation Benchmark for Evaluating Large Vision and Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Turn Conversation#VLM Evaluation#Benchmark#Vision and Language Models#Contextual Understanding#Checklist-based Evaluation#Interactive AI2025년 10월 21일댓글 수 로딩 중
[논문리뷰] FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance DomainArman Cohan이 arXiv에 게시한 'FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain' 논문에 대한 자세한 리뷰입니다.#Review#LLM Trustworthiness#Finance Domain#Benchmark#Alignment Evaluation#Financial AI#Hallucination#Privacy#Fairness2025년 10월 20일댓글 수 로딩 중
[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical ReasoningKe Wang이 arXiv에 게시한 'MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning#Diagram Generation#Dataset#Benchmark2025년 10월 17일댓글 수 로딩 중
[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified BenchmarkarXiv에 게시된 'Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Unified Models#Benchmark#Generation#Understanding#Reasoning#Evaluation#Cross-modal Synergy2025년 10월 16일댓글 수 로딩 중
[논문리뷰] ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMsarXiv에 게시된 'ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion LLMs#Parallel Decoding#Speed-Quality Trade-off#Benchmark#Token Dependencies#Unmasking Strategies#Information Theory2025년 10월 16일댓글 수 로딩 중
[논문리뷰] MATH-Beyond: A Benchmark for RL to Expand Beyond the Base ModelWieland Brendel이 arXiv에 게시한 'MATH-Beyond: A Benchmark for RL to Expand Beyond the Base Model' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning (RL)#Mathematical Reasoning#Benchmark#Large Language Models (LLMs)#Exploration#Boundary Expansion#MATH-Beyond2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action ModelsarXiv에 게시된 'LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier MatharXiv에 게시된 'Hard2Verify: A Step-Level Verification Benchmark for Open-Ended Frontier Math' 논문에 대한 자세한 리뷰입니다.#Review#LLM Verification#Math Reasoning#Step-Level Verification#Benchmark#Open-Ended Problems#Process Reward Models#Generative Critics2025년 10월 16일댓글 수 로딩 중
[논문리뷰] ExpVid: A Benchmark for Experiment Video Understanding & ReasoningarXiv에 게시된 'ExpVid: A Benchmark for Experiment Video Understanding & Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Experiment Video Understanding#Multimodal Large Language Models (MLLMs)#Scientific Reasoning#Benchmark#Wet-Lab Experiments#Procedural Understanding#Fine-grained Perception#Video QA2025년 10월 15일댓글 수 로딩 중
[논문리뷰] Understanding DeepResearch via ReportsChengen Huang이 arXiv에 게시한 'Understanding DeepResearch via Reports' 논문에 대한 자세한 리뷰입니다.#Review#DeepResearch Agents#LLM-as-a-Judge#Report Evaluation#Agentic AI#Factuality#Redundancy#Research Automation#Benchmark2025년 10월 13일댓글 수 로딩 중
[논문리뷰] MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal RetrievalTingyu Song이 arXiv에 게시한 'MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Retrieval#Benchmark#Reasoning#Multidisciplinary#Expert-Level#Image-Text Interleaving#Contradiction Retrieval2025년 10월 13일댓글 수 로딩 중
[논문리뷰] AutoPR: Let's Automate Your Academic Promotion!Yixin Yuan이 arXiv에 게시한 'AutoPR: Let's Automate Your Academic Promotion!' 논문에 대한 자세한 리뷰입니다.#Review#Academic Promotion#Large Language Models#Multi-Agent Systems#Scholarly Communication#Multimodal Processing#Benchmark#Content Generation#Social Media Marketing2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAGarXiv에 게시된 'UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal RAG#Document AI#Benchmark#Information Retrieval#Large Language Models#Multimodal Embeddings#PDF Processing#Question Answering2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal ModelsMohit Bansal이 arXiv에 게시한 'SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Multimodal AI#Scientific Research#Large Multimodal Models#Benchmark#Quantitative Reasoning#Domain Knowledge#Visual Grounding2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimizationvanilla1116이 arXiv에 게시한 'MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Reflective Reasoning#Long-Chain Reasoning#Benchmark#Policy Optimization#Data Generation#Reinforcement Learning#Backtracking2025년 10월 10일댓글 수 로딩 중
[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent PipelinearXiv에 게시된 'MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline' 논문에 대한 자세한 리뷰입니다.#Review#MLE (Machine Learning Engineering)#Automated Task Generation#Multi-Agent System#LLM Agents#Benchmark#Data Curation#Hybrid Verification#Kaggle2025년 10월 9일댓글 수 로딩 중
[논문리뷰] EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging BenchmarkTianwen Qian이 arXiv에 게시한 'EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Vision#Nighttime Conditions#Visual Question Answering (VQA)#Day-Night Alignment#Multimodal Large Language Models (MLLMs)#Depth Estimation#Correspondence Retrieval#Benchmark2025년 10월 8일댓글 수 로딩 중
[논문리뷰] LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQLarXiv에 게시된 'LLMSQL: Upgrading WikiSQL for the LLM Era of Text-to-SQL' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-SQL#WikiSQL#LLM#Dataset Curation#Natural Language Processing#Benchmark#SQL Generation#Data Cleaning2025년 10월 7일댓글 수 로딩 중
[논문리뷰] SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?Shuo Wang이 arXiv에 게시한 'SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?' 논문에 대한 자세한 리뷰입니다.#Review#LLM#LLM Agents#Academic Survey Generation#Evaluation Framework#Benchmark#Quiz-driven Evaluation#Content Quality Metrics2025년 10월 6일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k CorpusZhonghao Zhang이 arXiv에 게시한 'SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus' 논문에 대한 자세한 리뷰입니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model ResponsesJulian McAuley이 arXiv에 게시한 'BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses' 논문에 대한 자세한 리뷰입니다.#Review#LLM Bias Mitigation#Benchmark#Evaluation Metrics#Prompt Engineering#Fine-tuning#Bias-Free Score#Fairness2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance GapHengfan Zhang이 arXiv에 게시한 'Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap' 논문에 대한 자세한 리뷰입니다.#Review#Voice AI#LLM#Reasoning#Benchmark#Modality Gap#Latency#Speech Recognition#Generative AI#Real-time Systems#Conversational AI2025년 10월 1일댓글 수 로딩 중
[논문리뷰] VisualOverload: Probing Visual Understanding of VLMs in Really Dense ScenesMuhammad Huzaifa이 arXiv에 게시한 'VisualOverload: Probing Visual Understanding of VLMs in Really Dense Scenes' 논문에 대한 자세한 리뷰입니다.#Review#Visual Question Answering#Multimodal Models#Dense Scenes#Fine-Grained Perception#Benchmark#Error Analysis#Counting#OCR2025년 10월 1일댓글 수 로딩 중
[논문리뷰] MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP UsearXiv에 게시된 'MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agents#Model Context Protocol#Benchmark#Tool Use#CRUD Operations#Workflow Automation#Stress Testing#Evaluation2025년 10월 1일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive BenchmarkYuran Wang이 arXiv에 게시한 'RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Unified Models#Multimodal AI#Benchmark#Capability Synergy#Visual Understanding#Image Generation#Dual-Evaluation Protocol2025년 9월 30일댓글 수 로딩 중
[논문리뷰] EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward ModelingarXiv에 게시된 'EditScore: Unlocking Online RL for Image Editing via High-Fidelity Reward Modeling' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Image Editing#Reward Modeling#Instruction-Guided Editing#Online RL#Visual Language Models#Benchmark#Self-Ensembling2025년 9월 30일댓글 수 로딩 중
[논문리뷰] V-GameGym: Visual Game Generation for Code Large Language ModelsShawn Guo이 arXiv에 게시한 'V-GameGym: Visual Game Generation for Code Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Code Large Language Models#Visual Game Generation#Benchmark#Pygame#Multimodal Evaluation#Software Engineering#AI-assisted Game Development2025년 9월 26일댓글 수 로딩 중
[논문리뷰] StyleBench: Evaluating thinking styles in Large Language ModelsJavad Lavaei이 arXiv에 게시한 'StyleBench: Evaluating thinking styles in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Reasoning Strategies#Prompt Engineering#LLM Evaluation#Benchmark#Thinking Styles#Scaling Laws#Meta-Reasoning2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Does FLUX Already Know How to Perform Physically Plausible Image Composition?Chen Zhao이 arXiv에 게시한 'Does FLUX Already Know How to Perform Physically Plausible Image Composition?' 논문에 대한 자세한 리뷰입니다.#Review#Image Composition#Diffusion Models#Training-Free#Physically Plausible#FLUX#Adapter#Guidance#Benchmark2025년 9월 26일댓글 수 로딩 중
[논문리뷰] BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic FeedbackDongha Lee이 arXiv에 게시한 'BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback' 논문에 대한 자세한 리뷰입니다.#Review#Search-Augmented LLMs#Personalization#Benchmark#Diagnostic Feedback#User History#Evaluation Framework#RAG2025년 9월 26일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary ReconstructionSo Fukuda이 arXiv에 게시한 'VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Geospatial Reasoning#Temporal Reasoning#Travel Itinerary Reconstruction#Benchmark#Agent System#VLOG2025년 9월 24일댓글 수 로딩 중
[논문리뷰] OpenGVL - Benchmarking Visual Temporal Progress for Data CurationViktor Petrenko이 arXiv에 게시한 'OpenGVL - Benchmarking Visual Temporal Progress for Data Curation' 논문에 대한 자세한 리뷰입니다.#Review#Robotics Data Curation#Visual Temporal Progress#Generative Value Learning (GVL)#Vision-Language Models (VLMs)#Benchmark#Task Progress Prediction#Value-Order Correlation (VOC)2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCRZeina Aldallal이 arXiv에 게시한 'Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR' 논문에 대한 자세한 리뷰입니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중
[논문리뷰] VaseVQA: Multimodal Agent and Benchmark for Ancient Greek PotteryShiya Huang이 arXiv에 게시한 'VaseVQA: Multimodal Agent and Benchmark for Ancient Greek Pottery' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Visual Question Answering#Reinforcement Learning#Cultural Heritage#Ancient Greek Pottery#Supervised Fine-Tuning#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?Yannis Yiming He이 arXiv에 게시한 'SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Software Engineering#LLMs#Code Generation#Benchmark#Contamination Resistance#Long-Horizon Tasks#Enterprise Software2025년 9월 23일댓글 수 로딩 중
[논문리뷰] CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python ProjectsHang Yu이 arXiv에 게시한 'CodeFuse-CR-Bench: A Comprehensiveness-aware Benchmark for End-to-End Code Review Evaluation in Python Projects' 논문에 대한 자세한 리뷰입니다.#Review#Code Review#LLMs#Benchmark#Python Projects#End-to-End Evaluation#Context-Awareness#Software Engineering#LLM-as-a-Judge2025년 9월 23일댓글 수 로딩 중
[논문리뷰] AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?Jaeho Lee이 arXiv에 게시한 'AuditoryBench++: Can Language Models Understand Auditory Knowledge without Hearing?' 논문에 대한 자세한 리뷰입니다.#Review#Auditory Knowledge#Large Language Models#Multimodal Reasoning#Benchmark#Chain-of-Thought#Auditory Imagination#Text-only Reasoning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] ARE: Scaling Up Agent Environments and EvaluationsMatteo Bettini이 arXiv에 게시한 'ARE: Scaling Up Agent Environments and Evaluations' 논문에 대한 자세한 리뷰입니다.#Review#Agent Environments#Agent Evaluation#LLM Agents#Asynchronous Systems#Reinforcement Learning#Tool Use#Multi-agent Collaboration#Benchmark2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SteeringControl: Holistic Evaluation of Alignment Steering in LLMsZhun Wang이 arXiv에 게시한 'SteeringControl: Holistic Evaluation of Alignment Steering in LLMs' 논문에 대한 자세한 리뷰입니다.#Review#LLM Alignment#Representation Steering#Benchmark#Behavioral Entanglement#Bias Mitigation#Harmful Generation#Hallucination Control#Modular Framework2025년 9월 18일댓글 수 로딩 중
[논문리뷰] GenExam: A Multidisciplinary Text-to-Image ExamYu Qiao이 arXiv에 게시한 'GenExam: A Multidisciplinary Text-to-Image Exam' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Multidisciplinary#Benchmark#Evaluation#AGI#Reasoning#Scoring System#Visual Question Answering2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Measuring Epistemic Humility in Multimodal Large Language ModelsKaiyang Zhou이 arXiv에 게시한 'Measuring Epistemic Humility in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models#Hallucination#Epistemic Humility#Benchmark#False-Option Rejection#Visual Question Answering#Scene Graph2025년 9월 16일댓글 수 로딩 중
[논문리뷰] VStyle: A Benchmark for Voice Style Adaptation with Spoken InstructionsDong Zhang이 arXiv에 게시한 'VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions' 논문에 대한 자세한 리뷰입니다.#Review#Voice Style Adaptation#Spoken Language Models#Benchmark#LALM-as-a-Judge#Speech Generation#Multilingual#Evaluation Framework2025년 9월 15일댓글 수 로딩 중
[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in ChinaXU Han이 arXiv에 게시한 'CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China' 논문에 대한 자세한 리뷰입니다.#Review#Headline Generation#Minority Languages#Low-Resource NLP#Dataset#Benchmark#Natural Language Generation#Chinese Minority Languages2025년 9월 15일댓글 수 로딩 중
[논문리뷰] LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software EngineeringJianguo Zhang이 arXiv에 게시한 'LoCoBench: A Benchmark for Long-Context Large Language Models in Complex Software Engineering' 논문에 대한 자세한 리뷰입니다.#Review#Long-Context LLMs#Software Engineering#Code Evaluation#Benchmark#Multi-file Reasoning#Architectural Understanding#Context Length#Software Development Lifecycle#Metrics2025년 9월 12일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive BenchmarkShuai Bai이 arXiv에 게시한 'FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI AssistantsJacy Reese Anthis이 arXiv에 게시한 'HumanAgencyBench: Scalable Evaluation of Human Agency Support in AI Assistants' 논문에 대한 자세한 리뷰입니다.#Review#Human Agency#AI Assistants#LLM Evaluation#Benchmark#Sociotechnical AI#AI Alignment#Scalable Evaluation2025년 9월 11일댓글 수 로딩 중
[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric KnowledgeDipanjan Das이 arXiv에 게시한 'SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge' 논문에 대한 자세한 리뷰입니다.#Review#LLM Factuality#Parametric Knowledge#Benchmark#Question Answering#Data Curation#Evaluation Metrics#Hallucination Mitigation#Large Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI AgentsZhengxi Lu이 arXiv에 게시한 'MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents' 논문에 대한 자세한 리뷰입니다.#Review#Mobile GUI Agents#Hybrid Automation#Shortcut Generation#Benchmark#Task Efficiency#LLM-based Agents#Mobile Robotics2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?Yu Fu이 arXiv에 게시한 'Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?' 논문에 대한 자세한 리뷰입니다.#Review#LLMs#Instruction Following#Benchmark#Cognitive Inertia#Out-of-Distribution#Supervised Fine-Tuning#Evaluation#Robustness2025년 9월 5일댓글 수 로딩 중
[논문리뷰] DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded TasksJiaxuan Lu이 arXiv에 게시한 'DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Research Agents#Benchmark#Multi-Agent System#Seminar-Grounded Tasks#Data Leakage Prevention#Ill-Structured Problems2025년 9월 5일댓글 수 로딩 중
[논문리뷰] FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure GamesDongmin Park이 arXiv에 게시한 'FlashAdventure: A Benchmark for GUI Agents Solving Full Story Arcs in Diverse Adventure Games' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agents#Adventure Games#Benchmark#Full Story Arc#Observation-Behavior Gap#LLMs#Automated Evaluation2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video UnderstandingXuanyu Zheng이 arXiv에 게시한 'ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Understanding#Hallucination#Semantic Aggregation#Video MLLM#Benchmark#DPO#Positional Encoding#VideoQA2025년 9월 3일댓글 수 로딩 중
[논문리뷰] ReportBench: Evaluating Deep Research Agents via Academic Survey TasksKai Jia이 arXiv에 게시한 'ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#LLM Evaluation#Academic Survey#Factual Accuracy#Citation Verification#Report Generation#Benchmark#Hallucination2025년 8월 27일댓글 수 로딩 중
[논문리뷰] CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter PhysicsDongchen Huang이 arXiv에 게시한 'CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Condensed Matter Physics#Benchmark#Scientific Reasoning#Evaluation Metric#Expression Edit Distance#Problem Solving2025년 8월 27일댓글 수 로딩 중
[논문리뷰] SpotEdit: Evaluating Visually-Guided Image Editing MethodsErsin Yumer이 arXiv에 게시한 'SpotEdit: Evaluating Visually-Guided Image Editing Methods' 논문에 대한 자세한 리뷰입니다.#Review#Visually-Guided Image Editing#Multimodal Models#Benchmark#Hallucination#Diffusion Models#Autoregressive Models#Evaluation Metrics2025년 8월 26일댓글 수 로딩 중
[논문리뷰] AetherCode: Evaluating LLMs' Ability to Win In Premier Programming CompetitionsYidi Du이 arXiv에 게시한 'AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions' 논문에 대한 자세한 리뷰입니다.#Review#Competitive Programming#LLM Evaluation#Code Reasoning#Benchmark#Test Case Generation#Programming Competitions#Algorithmic Problems2025년 8월 25일댓글 수 로딩 중
[논문리뷰] INTIMA: A Benchmark for Human-AI Companionship BehaviorYacine Jernite이 arXiv에 게시한 'INTIMA: A Benchmark for Human-AI Companionship Behavior' 논문에 대한 자세한 리뷰입니다.#Review#AI Companionship#Benchmark#Language Models (LLMs)#Human-AI Interaction#Emotional AI#Boundary Setting#Psychological Frameworks#Evaluation Metrics2025년 8월 22일댓글 수 로딩 중
[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual ReferencesShiyun Lang이 arXiv에 게시한 'MultiRef: Controllable Image Generation with Multiple Visual References' 논문에 대한 자세한 리뷰입니다.#Review#Controllable Image Generation#Multi-modal Generation#Visual References#Image-to-Image#Benchmark#Dataset#MLLM-as-a-Judge2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General IntelligenceFernando López이 arXiv에 게시한 'MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Audio Intelligence#Multimodal AI#Benchmark#Audio-Language Models#Holistic Evaluation#Reasoning#Long-Form Audio#Multicultural Music2025년 8월 20일댓글 수 로딩 중
[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing AgentsJun Dong이 arXiv에 게시한 'MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Browsing#AI Agents#Benchmark#Vision-Language Models#Reasoning#Tool Use#Deep Search2025년 8월 20일댓글 수 로딩 중
[논문리뷰] HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual WorldsArtyom Sorokin이 arXiv에 게시한 'HeroBench: A Benchmark for Long-Horizon Planning and Structured Reasoning in Virtual Worlds' 논문에 대한 자세한 리뷰입니다.#Review#Long-Horizon Planning#Structured Reasoning#LLM Evaluation#Virtual Worlds#RPG#Benchmark#Agent Systems#Combat Simulation2025년 8월 19일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding ModelsDongdong Zhang이 arXiv에 게시한 'VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] WideSearch: Benchmarking Agentic Broad Info-SeekingYan Gao이 arXiv에 게시한 'WideSearch: Benchmarking Agentic Broad Info-Seeking' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Search#LLM#Benchmark#Information Seeking#Structured Output#Evaluation Metrics#Multi-agent Systems2025년 8월 12일댓글 수 로딩 중
[논문리뷰] VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document UnderstandingTong Yu이 arXiv에 게시한 'VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Retrieval#Retrieval-Augmented Generation#Long Document Understanding#Multilingual NLP#Visual QA#Benchmark#MLLMs#Table Understanding2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex ScenesXudong Jiang이 arXiv에 게시한 'MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Segmentation#Dataset#Complex Scenes#Benchmark#Object Tracking#Computer Vision#Dataset Challenges2025년 8월 8일댓글 수 로딩 중
[논문리뷰] DeepPHY: Benchmarking Agentic VLMs on Physical ReasoningZiming Wang이 arXiv에 게시한 'DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Vision Language Models (VLMs)#Agentic AI#Physical Reasoning#Benchmark#Simulation Environments#Action Planning#Interactive AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?Yaojie Lu이 arXiv에 게시한 'LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?' 논문에 대한 자세한 리뷰입니다.#Review#LLM Agent#Tool-use#MCP#Benchmark#Large-scale#Real-world tasks#Automated Evaluation#Meta-tool-learning2025년 8월 6일댓글 수 로딩 중