[논문리뷰] Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMsarXiv에 게시된 'Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Modality Gap#Visual Text Understanding#Error Analysis#Self-Distillation#Text-to-Image Conversion#Reasoning Collapse2026년 3월 10일댓글 수 로딩 중
[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation AgentsHongsheng Li이 arXiv에 게시한 'PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents' 논문에 대한 자세한 리뷰입니다.#Review#Proactive Agents#GUI Automation#Intent Recommendation#Multimodal LLMs#Benchmark#Memory-aware Framework#Human-Computer Interaction2026년 3월 9일댓글 수 로딩 중
[논문리뷰] MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language ModelsarXiv에 게시된 'MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Post-Training Quantization#Modality-Aware Smoothing#Cross-Modal Compensation#Quantization#Model Compression#SVD-based Whitening2026년 3월 5일댓글 수 로딩 중
[논문리뷰] RIVER: A Real-Time Interaction Benchmark for Video LLMsarXiv에 게시된 'RIVER: A Real-Time Interaction Benchmark for Video LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Real-time Interaction#Video Understanding#Benchmark#Temporal Reasoning#Long-term Memory#Proactive Response2026년 3월 4일댓글 수 로딩 중
[논문리뷰] Phi-4-reasoning-vision-15B Technical ReportarXiv에 게시된 'Phi-4-reasoning-vision-15B Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Efficient AI#Reasoning Models#Vision-Language Models#Data Curation#Mid-Fusion#High-Resolution Vision#Small Language Models2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language ModelsYiran Chen이 arXiv에 게시한 'MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Safety Evaluation#Red Teaming#Adversarial Attacks#Modality Switching#LLM Alignment#Compliance#ASR2026년 3월 4일댓글 수 로딩 중
[논문리뷰] MediX-R1: Open Ended Medical Reinforcement LearningarXiv에 게시된 'MediX-R1: Open Ended Medical Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Multimodal LLMs#Medical AI#Composite Reward#LLM-as-a-Judge#Open-ended Generation#Medical Imaging2026년 2월 26일댓글 수 로딩 중
[논문리뷰] Imagination Helps Visual Reasoning, But Not Yet in Latent SpacearXiv에 게시된 'Imagination Helps Visual Reasoning, But Not Yet in Latent Space' 논문에 대한 자세한 리뷰입니다.#Review#Visual Reasoning#Latent Space#Causal Mediation Analysis#Multimodal LLMs#Textual Imagination#Model Interpretation#Latent Tokens2026년 2월 26일댓글 수 로딩 중
[논문리뷰] BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language ModelsarXiv에 게시된 'BiManiBench: A Hierarchical Benchmark for Evaluating Bimanual Coordination of Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Bimanual Manipulation#MLLMs#Robotics Benchmark#Spatial Reasoning#Action Planning#End-Effector Control#Embodied AI#Multimodal LLMs2026년 2월 18일댓글 수 로딩 중
[논문리뷰] BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing AgentsYanzhe Dan이 arXiv에 게시한 'BrowseComp-V^3: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Web Browsing Agents#Deep Search#Benchmark#Tool Use#Process Evaluation#Multimodal Reasoning#Open-world QA2026년 2월 16일댓글 수 로딩 중
[논문리뷰] Demo-ICL: In-Context Learning for Procedural Video Knowledge AcquisitionarXiv에 게시된 'Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition' 논문에 대한 자세한 리뷰입니다.#Review#Video Understanding#In-Context Learning#Procedural Knowledge#Multimodal LLMs#Benchmark#Direct Preference Optimization#Demonstration Selection2026년 2월 9일댓글 수 로딩 중
[논문리뷰] Reinforced Attention LearningarXiv에 게시된 'Reinforced Attention Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Multimodal LLMs#Attention Mechanisms#Policy Gradient#Knowledge Distillation#Visual Grounding#Post-training2026년 2월 5일댓글 수 로딩 중
[논문리뷰] CodeOCR: On the Effectiveness of Vision Language Models in Code UnderstandingarXiv에 게시된 'CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Vision Language Models#Code Understanding#Visual Code Representation#Code Compression#Computational Efficiency#Multimodal LLMs#Software Engineering2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image ModelsarXiv에 게시된 'Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Models#Spatial Intelligence#Benchmark#Evaluation#Prompt Engineering#Multimodal LLMs#Fine-tuning#Spatial Reasoning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm DetectionarXiv에 게시된 'GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Sarcasm Detection#Large Language Models#Multimodal LLMs#Discrepancy Modeling#Image Captioning#Gated Fusion#Semantic Incongruity2026년 1월 28일댓글 수 로딩 중
[논문리뷰] AdaReasoner: Dynamic Tool Orchestration for Iterative Visual ReasoningarXiv에 게시된 'AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Tool Orchestration#Visual Reasoning#Reinforcement Learning#Adaptive Learning#Generalization#Tool Use2026년 1월 27일댓글 수 로딩 중
[논문리뷰] AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and ThinkingarXiv에 게시된 'AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Benchmark#Cultural Understanding#Contextual Inference#Audio-Visual Memes#Multilingual#Q&A Evaluation2026년 1월 27일댓글 수 로딩 중
[논문리뷰] VIOLA: Towards Video In-Context Learning with Minimal AnnotationsRyo Hachiuma이 arXiv에 게시한 'VIOLA: Towards Video In-Context Learning with Minimal Annotations' 논문에 대한 자세한 리뷰입니다.#Review#Video In-Context Learning#Minimal Annotation#Active Learning#Pseudo-Labeling#Multimodal LLMs#Density-Uncertainty Sampling#Confidence-Aware Retrieval#Low-Resource Adaptation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SAMTok: Representing Any Mask with Two WordsarXiv에 게시된 'SAMTok: Representing Any Mask with Two Words' 논문에 대한 자세한 리뷰입니다.#Review#Mask Tokenization#Multimodal LLMs#Pixel-wise Vision-Language#Reinforcement Learning#Segmentation Anything Model#Discrete Representation2026년 1월 22일댓글 수 로딩 중
[논문리뷰] FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMsarXiv에 게시된 'FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Future Forecasting#Audio-Visual Reasoning#Benchmark#Instruction Tuning#Omni-Modal#Causal Reasoning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive SurveyarXiv에 게시된 'Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey' 논문에 대한 자세한 리뷰입니다.#Review#LLM-based Issue Resolution#Software Engineering#Autonomous Agents#Code Generation#Benchmarking#Reinforcement Learning#Supervised Fine-tuning#Multimodal LLMs2026년 1월 20일댓글 수 로딩 중
[논문리뷰] DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training DatasetLan Wu이 arXiv에 게시한 'DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Pre-training#Chinese Dataset#Data Filtering#Cross-modal Retrieval#Zero-shot Classification#Multimodal LLMs#SigLIP2026년 1월 15일댓글 수 로딩 중
[논문리뷰] A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5Yutao Wu이 arXiv에 게시한 'A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5' 논문에 대한 자세한 리뷰입니다.#Review#AI Safety#Large Language Models#Multimodal LLMs#Benchmark Evaluation#Adversarial Robustness#Multilingual Evaluation#Regulatory Compliance#Image Generation Safety2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Ministral 3arXiv에 게시된 'Ministral 3' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Model Distillation#Pruning#Parameter-Efficient AI#Multimodal LLMs#Instruction Tuning#Reinforcement Learning from Human Feedback#Open-Source AI2026년 1월 13일댓글 수 로딩 중
[논문리뷰] Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video ReasoningShuo Zhang이 arXiv에 게시한 'Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Video Question Answering#Open-domain Search#Multimodal LLMs#Agentic AI#Benchmark#Video Understanding#Multi-hop Reasoning2026년 1월 12일댓글 수 로딩 중
[논문리뷰] BabyVision: Visual Reasoning Beyond LanguageYiyan Liang이 arXiv에 게시한 'BabyVision: Visual Reasoning Beyond Language' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Reasoning#Benchmark#Early Vision#Spatial Perception#Visual Tracking#Pattern Recognition#Generative Models2026년 1월 12일댓글 수 로딩 중
[논문리뷰] CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem SolvingTao Feng이 arXiv에 게시한 'CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Reasoning#Mathematical Problem Solving#Knowledge Internalization#Reinforcement Learning#Cognitive-Inspired AI#Perception-Reasoning Alignment2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Video-BrowseComp: Benchmarking Agentic Video Research on Open WebKaixin Liang이 arXiv에 게시한 'Video-BrowseComp: Benchmarking Agentic Video Research on Open Web' 논문에 대한 자세한 리뷰입니다.#Review#Agentic AI#Video Understanding#Web Browsing#Benchmark#Multimodal LLMs#Temporal Grounding#Cross-Source Reasoning#Information Seeking2025년 12월 29일댓글 수 로딩 중
[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video UnderstandingJian Liu이 arXiv에 게시한 'OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Omnimodal Understanding#Audio-Guided Perception#Active Learning Agents#Cross-Modal Alignment#Tool-Use#Video Understanding#Multimodal LLMs2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SpatialTree: How Spatial Abilities Branch Out in MLLMsarXiv에 게시된 'SpatialTree: How Spatial Abilities Branch Out in MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Multimodal LLMs#Cognitive Hierarchy#Benchmark#Reinforcement Learning#Supervised Fine-tuning#Spatial Reasoning2025년 12월 23일댓글 수 로딩 중
[논문리뷰] 4D-RGPT: Toward Region-level 4D Understanding via Perceptual DistillationarXiv에 게시된 '4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#4D Understanding#Perceptual Distillation#Region-level VQA#Video Question Answering#Temporal Perception#Depth Perception2025년 12월 21일댓글 수 로딩 중
[논문리뷰] Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and ImagearXiv에 게시된 'Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image' 논문에 대한 자세한 리뷰입니다.#Review#Reward Models#Multimodal LLMs#Benchmark#Text-to-Image Generation#Image Editing#Interleaved Generation#Multimodal Reasoning#MLLM-as-a-judge2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMsCarlos Escolano이 arXiv에 게시한 'Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Speech-to-Text Translation#Multimodal LLMs#Speech Foundation Models#Cascaded Systems#Benchmarking#Speech Modality Integration#Robustness#Evaluation Metrics2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical ReportarXiv에 게시된 'Step-GUI Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Thinking with Images via Self-Calling AgentQixiang Ye이 arXiv에 게시한 'Thinking with Images via Self-Calling Agent' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Self-Calling Chain-of-Thought#Reinforcement Learning#Visual Reasoning#Agentic AI#Tool Calling#Group Relative Policy Optimization2025년 12월 11일댓글 수 로딩 중
[논문리뷰] OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense EvaluationSimeng Qin이 arXiv에 게시한 'OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Jailbreak Attack#Attack-Defense Evaluation#Benchmark#Safety Alignment#Vulnerability Analysis#Risk Taxonomy#Evaluation Metrics2025년 12월 8일댓글 수 로딩 중
[논문리뷰] Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive AlignmentarXiv에 게시된 'Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Hallucination Mitigation#Object Hallucination#Action Hallucination#Contrastive Learning#Self-Augmentation#Tracklet-Phrase Alignment2025년 12월 4일댓글 수 로딩 중
[논문리뷰] ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual ReasoningarXiv에 게시된 'ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reward Models#Agentic AI#Tool Use#Reinforcement Learning#Visual Reasoning#Multimodal LLMs#Instruction Following#Evaluation Benchmarks2025년 12월 4일댓글 수 로딩 중
[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and VideoKaixuan Fan이 arXiv에 게시한 'OneThinker: All-in-one Reasoning Model for Image and Video' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Reinforcement Learning#Visual Reasoning#Generalist Model#Image Understanding#Video Understanding#Multitask Learning#EMA-GRPO2025년 12월 3일댓글 수 로딩 중
[논문리뷰] PAI-Bench: A Comprehensive Benchmark For Physical AIHumphrey Shi이 arXiv에 게시한 'PAI-Bench: A Comprehensive Benchmark For Physical AI' 논문에 대한 자세한 리뷰입니다.#Review#Physical AI#Benchmark#Video Generation#Conditional Video Generation#Video Understanding#Multimodal LLMs#Physical Plausibility#Embodied Reasoning2025년 12월 2일댓글 수 로딩 중
[논문리뷰] LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool CallingarXiv에 게시된 'LongVT: Incentivizing 'Thinking with Long Videos' via Native Tool Calling' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Understanding#Multimodal LLMs#Tool Calling#Reinforcement Learning#Chain-of-Thought#Temporal Grounding#Video Question Answering2025년 12월 1일댓글 수 로딩 중
[논문리뷰] SO-Bench: A Structural Output Evaluation of Multimodal LLMsarXiv에 게시된 'SO-Bench: A Structural Output Evaluation of Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Structural Output#Information Extraction#JSON Schema#SO-Bench#Visual Reasoning#Supervised Fine-tuning#Reinforcement Learning2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Agentic Learner with Grow-and-Refine Multimodal Semantic MemoryQunyi Xie이 arXiv에 게시한 'Agentic Learner with Grow-and-Refine Multimodal Semantic Memory' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Semantic Memory#Agentic Learning#Error Attribution#Visual Reasoning#Long-term Memory#Grow-and-Refine#Multimodal Reasoning2025년 11월 27일댓글 수 로딩 중
[논문리뷰] GeoVista: Web-Augmented Agentic Visual Reasoning for GeolocalizationarXiv에 게시된 'GeoVista: Web-Augmented Agentic Visual Reasoning for Geolocalization' 논문에 대한 자세한 리뷰입니다.#Review#Geolocalization#Agentic Models#Visual Reasoning#Web-Augmented#Multimodal LLMs#Reinforcement Learning#Tool Use#GeoBench2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Step-Audio-R1 Technical ReportarXiv에 게시된 'Step-Audio-R1 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Audio Reasoning#Multimodal LLMs#Modality-Grounded Reasoning Distillation (MGRD)#Chain-of-Thought#Reinforcement Learning#Audio Understanding#Self-Distillation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language ModelsarXiv에 게시된 'VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Anomaly Understanding#Large Language Models#Causal Reasoning#Relation-Aware#Keyframe Sampling#Multimodal LLMs#Scene Graphs2025년 11월 10일댓글 수 로딩 중
[논문리뷰] SIMS-V: Simulated Instruction-Tuning for Spatial Video UnderstandingarXiv에 게시된 'SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Video Understanding#Simulated Data#Instruction Tuning#Multimodal LLMs#Sim-to-Real Transfer#AI2-THOR2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Cambrian-S: Towards Spatial Supersensing in VideoZihao Yang이 arXiv에 게시한 'Cambrian-S: Towards Spatial Supersensing in Video' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Supersensing#Video Understanding#Multimodal LLMs#Predictive Sensing#Memory Management#Event Segmentation#VSI-SUPER#Instruction Tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual ShortcutsarXiv에 게시된 'Benchmark Designers Should 'Train on the Test Set' to Expose Exploitable Non-Visual Shortcuts' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Benchmark Design#Non-Visual Shortcuts#Test-Set Stress-Test#Bias Mitigation#Model Evaluation#Benchmark Robustness2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive CapacityarXiv에 게시된 'MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Benchmark#Cognitive Capacity#Visual Reasoning#MLLM Evaluation#Error Analysis#Chain-of-Thought2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart ComprehensionHao Wang이 arXiv에 게시한 'ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension' 논문에 대한 자세한 리뷰입니다.#Review#Chart Comprehension#Visual Reasoning#Data Generation#Code-Driven Pipeline#Multimodal LLMs#Retrieval-Augmented Generation#Reinforcement Learning#Synthetic Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal ModelsShijie Dong이 arXiv에 게시한 'Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Large Multimodal Models#Visual Token Compression#Token Pruning#Benchmark#Efficiency#Inference Latency#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images ReasoningShaoheng Lin이 arXiv에 게시한 'TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Agentic Reasoning#Thinking-with-Images#Visual Reasoning Benchmark#Tool Use#Image Manipulation#Fine-tuning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Actial: Activate Spatial Reasoning Ability of Multimodal Large Language ModelsChangfeng Ma이 arXiv에 게시한 'Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Spatial Reasoning#Viewpoint Learning#Two-Stage Fine-tuning#3D Consistency#Viewpoint-100K#Reinforcement Learning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger LearningHanyang Chen이 arXiv에 게시한 'Visual Backdoor Attacks on MLLM Embodied Decision Making via Contrastive Trigger Learning' 논문에 대한 자세한 리뷰입니다.#Review#Visual Backdoor Attacks#MLLM Embodied Agents#Contrastive Trigger Learning#Policy Manipulation#Adversarial AI#Embodied AI Security#Multimodal LLMs2025년 11월 9일댓글 수 로딩 중
[논문리뷰] STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D IntelligencearXiv에 게시된 'STAR-Bench: Probing Deep Spatio-Temporal Reasoning as Audio 4D Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Audio Intelligence#Spatio-Temporal Reasoning#4D Audio#Benchmark#Large Audio-Language Models#Perceptual Reasoning#Multimodal LLMs2025년 10월 29일댓글 수 로딩 중
[논문리뷰] RoboOmni: Proactive Robot Manipulation in Omni-modal ContextarXiv에 게시된 'RoboOmni: Proactive Robot Manipulation in Omni-modal Context' 논문에 대한 자세한 리뷰입니다.#Review#Robotic Manipulation#Multimodal LLMs#Vision-Language-Action#Proactive AI#Omni-modal Learning#Intent Recognition#Contextual Instructions2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMsarXiv에 게시된 'Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Reasoning#Latent Space#Sketch Generation#Visual Thinking#Autoregressive Generation#Interpretability2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Directional Reasoning Injection for Fine-Tuning MLLMsJialian Wu이 arXiv에 게시한 'Directional Reasoning Injection for Fine-Tuning MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Reasoning Transfer#Gradient-based Fine-tuning#Model Merging#Parameter-Efficient Learning#Supervised Fine-tuning#Directional Prior2025년 10월 23일댓글 수 로딩 중
[논문리뷰] DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone AgentsarXiv에 게시된 'DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Fine-tuning#Data Mixing Optimization#Mobile Phone Agents#Downstream Task Prediction#Benchmark#Neural Networks2025년 10월 23일댓글 수 로딩 중
[논문리뷰] MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn DialoguesarXiv에 게시된 'MT-Video-Bench: A Holistic Video Understanding Benchmark for Evaluating Multimodal LLMs in Multi-Turn Dialogues' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Benchmark#Multi-Turn Dialogues#Perceptivity#Interactivity#Evaluation2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMsarXiv에 게시된 'Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Region Understanding#Contextual Pixel Understanding#RoI-aligned Feature Replay#Compositional Reasoning#GAR-Bench#Zero-shot Video Understanding2025년 10월 22일댓글 수 로딩 중
[논문리뷰] MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User InterfacesSungchul Kim이 arXiv에 게시한 'MLLM as a UI Judge: Benchmarking Multimodal LLMs for Predicting Human Perception of User Interfaces' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#UI Evaluation#Human Perception#Benchmarking#UX Research#MLLM-as-a-Judge#Cognitive Factors#Pairwise Comparison2025년 10월 15일댓글 수 로딩 중
[논문리뷰] MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimizationvanilla1116이 arXiv에 게시한 'MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Reflective Reasoning#Long-Chain Reasoning#Benchmark#Policy Optimization#Data Generation#Reinforcement Learning#Backtracking2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related TasksPedro Bizarro이 arXiv에 게시한 'Benchmark It Yourself (BIY): Preparing a Dataset and Benchmarking AI Models for Scatterplot-Related Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Scatterplot Analysis#AI Benchmarking#Multimodal LLMs#Synthetic Data Generation#Cluster Detection#Outlier Detection#Data Visualization#Prompt Engineering2025년 10월 8일댓글 수 로딩 중
[논문리뷰] Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMsarXiv에 게시된 'Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs' 논문에 대한 자세한 리뷰입니다.#Review#AI-Generated Videos#Deepfake Detection#Multimodal LLMs#Human Perception#Video Generation Evaluation#Spatiotemporal Annotation#Reward Modeling2025년 10월 1일댓글 수 로딩 중
[논문리뷰] VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary ReconstructionSo Fukuda이 arXiv에 게시한 'VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Geospatial Reasoning#Temporal Reasoning#Travel Itinerary Reconstruction#Benchmark#Agent System#VLOG2025년 9월 24일댓글 수 로딩 중
[논문리뷰] TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMsShaohui Jiao이 arXiv에 게시한 'TempSamp-R1: Effective Temporal Sampling with Reinforcement Fine-Tuning for Video LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Video LLMs#Temporal Grounding#Reinforcement Learning#Off-policy Learning#Reward Shaping#Chain-of-Thought#Multimodal LLMs2025년 9월 23일댓글 수 로딩 중
[논문리뷰] OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware ReasoningYuzheng Zhuang이 arXiv에 게시한 'OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Multimodal LLMs#3D Grounding#Task-Adaptive Reasoning#Embodiment-Aware Planning#Robotics#Spatial Reasoning2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Visual Representation Alignment for Multimodal Large Language ModelsHeeseong Shin이 arXiv에 게시한 'Visual Representation Alignment for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Visual Representation Alignment#Foundation Models#Regularization#Fine-grained Visual Understanding#Spatial Reasoning#Object Counting#Vision-Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Reinforced Visual Perception with ToolsMingyang Fu이 arXiv에 게시한 'Reinforced Visual Perception with Tools' 논문에 대한 자세한 리뷰입니다.#Review#Visual Reasoning#Multimodal LLMs#Reinforcement Learning#Tool Usage#Perception-heavy Benchmarks#GRPO#Vision Tools2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Kwai Keye-VL 1.5 Technical ReportSXxtyz이 arXiv에 게시한 'Kwai Keye-VL 1.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Video Understanding#Slow-Fast Encoding#Long Context#Chain-of-Thought#Reinforcement Learning#Human Alignment#Native-Resolution Vision Encoder2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image GenerationHaoxiang Shi이 arXiv에 게시한 'Visual-CoG: Stage-Aware Reinforcement Learning with Chain of Guidance for Text-to-Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Image Generation#Reinforcement Learning#Chain of Thought#Multimodal LLMs#Stage-Aware Rewards#Semantic Reasoning#Generative AI2025년 8월 26일댓글 수 로딩 중
[논문리뷰] Ovis2.5 Technical ReportYang Li이 arXiv에 게시한 'Ovis2.5 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Native Resolution Vision#Deep Reasoning#Chart Analysis#OCR#Visual Grounding#Training Efficiency#Preference Optimization2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Has GPT-5 Achieved Spatial Intelligence? An Empirical StudyRuisi Wang이 arXiv에 게시한 'Has GPT-5 Achieved Spatial Intelligence? An Empirical Study' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Multimodal LLMs#Benchmark Evaluation#GPT-5#Cognitive AI#AGI2025년 8월 19일댓글 수 로딩 중
[논문리뷰] Thyme: Think Beyond ImagesWei Chen이 arXiv에 게시한 'Thyme: Think Beyond Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Code Generation#Image Processing#Reinforcement Learning#Supervised Fine-Tuning#Visual Reasoning#Sandbox2025년 8월 18일댓글 수 로딩 중
[논문리뷰] Controlling Multimodal LLMs via Reward-guided DecodingMichal Drozdzal이 arXiv에 게시한 'Controlling Multimodal LLMs via Reward-guided Decoding' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Reward Models#Guided Decoding#Visual Grounding#Hallucination Mitigation#Object Precision#Object Recall#Inference-time Control2025년 8월 18일댓글 수 로딩 중
[논문리뷰] HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMsYi Yuan이 arXiv에 게시한 'HumanSense: From Multimodal Perception to Empathetic Context-Aware Responses through Reasoning MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Human-Centered AI#Empathy#Context-Awareness#MLLM Benchmark#Reinforcement Learning#Reasoning2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?Junjie Yang이 arXiv에 게시한 'Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?' 논문에 대한 자세한 리뷰입니다.#Review#Retrieval-Augmented Generation#Multimodal LLMs#Benchmark Evaluation#Document Understanding#Multi-hop Reasoning#Information Retrieval#Evaluation Dataset2025년 8월 8일댓글 수 로딩 중