[논문리뷰] Benchmarking Visual State Tracking in Multimodal Video Understanding본 논문은 최신 Multimodal Large Language Models (MLLMs)가 비디오의 지속적인 역동성을 이해하고 상태를 추적하는 능력, 즉 Visual State Tracking 능력이 결여되어 있다는 점을 지적한다 .#Review#Multimodal Large Language Models#Video Understanding#Visual State Tracking#Benchmark#Visual Perception#Agentic Frameworks2026년 6월 2일댓글 수 로딩 중
[논문리뷰] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs기존 Large Vision-Language Models (LVLMs) 강건성 벤치마크들이 환각이나 오해의 소지가 있는 텍스트 입력에만 집중하고, 시각적 이해 평가에서 오해의 소지가 있는 시각적 입력 을 간과하는 문제를 해결하는 것이 목표입니다.#Review#LVLM Robustness#Misleading Visual Inputs#VQA Benchmark#Visual Perception#Visual Reasoning#MVI-Sensitivity#Multimodal AI2025년 11월 18일댓글 수 로딩 중
[논문리뷰] LTD-Bench: Evaluating Large Language Models by Letting Them Draw현재 LLM 평가 방식이 공간 추론 능력 의 근본적인 한계를 가리는 추상적인 수치에 의존하여 모델 역량에 대한 직관적 이해를 제공하지 못하는 문제를 해결하고자 합니다.#Review#LLM Evaluation#Spatial Reasoning#Benchmark#Generative AI#Visual Perception#Spatial Imagination#Code Generation2025년 11월 9일댓글 수 로딩 중
[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.#Review#Multimodal Large Language Models (MLLMs)#Geometric Reasoning#Visual Perception#Reinforcement Learning (RL)#Two-stage Training#GeoPQA Benchmark#Perceptual Bottleneck2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Self-Rewarding Vision-Language Model via Reasoning DecompositionVision-Language Model (VLM)이 겪는 시각적 환각 및 언어적 지름길 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language Models#Reinforcement Learning#Self-Rewarding#Reasoning Decomposition#Visual Perception#Language Reasoning#Hallucinations#Language Shortcuts2025년 8월 28일댓글 수 로딩 중
[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models기존 MLLM 수학 추론 벤치마크들이 대부분 깨끗하거나 전처리된 이미지를 사용하는 한계를 극복하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Math Reasoning#Real-World Benchmark#Visual Perception#Robustness#K-12 Education#Dataset2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Detect Anything via Next Point Prediction본 논문은 MLLM(Multimodal Large Language Model) 기반 객체 감지에서 발생하는 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제를 해결하고, 기존 회귀 기반 모델과 동등하거나 이를 능가하는 제로샷 객체 인식 성능 을 달성하는 것을 목표로 합니다.#Review#Multimodal Large Language Models#Object Detection#Coordinate Prediction#Reinforcement Learning#Supervised Fine-tuning#Visual Perception#Zero-shot Learning#Spatial Reasoning2025년 10월 15일댓글 수 로딩 중