[논문리뷰] UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language ModelarXiv에 게시된 'UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Visual Tokenizer#Binary Codebook#Image Generation#Semantic Extraction#Pre-Post Distillation#Hybrid Architecture2026년 2월 16일댓글 수 로딩 중
[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search AgentsarXiv에 게시된 'REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents' 논문에 대한 자세한 리뷰입니다.#Review#Long-Horizon Search#Multimodal LLM#Task Synthesis#Agentic Mid-Training#Reinforcement Learning#Tool-Augmented Agents#Web Search2026년 2월 16일댓글 수 로딩 중
[논문리뷰] MoRL: Reinforced Reasoning for Unified Motion Understanding and GenerationarXiv에 게시된 'MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Motion Understanding#Motion Generation#Reinforcement Learning#Chain-of-Motion#Multimodal LLM#Human Motion Synthesis#Text-to-Motion2026년 2월 16일댓글 수 로딩 중
[논문리뷰] MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language ModelsYong Man Ro이 arXiv에 게시한 'MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Cross-modal Hallucination#Contrastive Decoding#Modality-Adaptive Decoding#Self-Assessment#Audio-Visual Language Model#Training-Free2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific DiscoveryarXiv에 게시된 'Innovator-VL: A Multimodal Large Language Model for Scientific Discovery' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Scientific AI#Data Efficiency#Reinforcement Learning#Vision-Language Model#Scientific Reasoning#Reproducible AI2026년 1월 28일댓글 수 로딩 중
[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video GenerationarXiv에 게시된 'The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Dialogue-to-Video Generation#Agentic AI#Cinematic Scripting#Long-Horizon Video Synthesis#Visual Coherence#Reinforcement Learning#Multimodal LLM2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image EditingDingkun Long이 arXiv에 게시한 'Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RLarXiv에 게시된 'SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL' 논문에 대한 자세한 리뷰입니다.#Review#Dermatological Diagnosis#Multimodal LLM#Reinforcement Learning#Dynamic Visual Encoding#Information Transmission#Clinically Grounded Evaluation2026년 1월 14일댓글 수 로딩 중
[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering TwicearXiv에 게시된 'VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice' 논문에 대한 자세한 리뷰입니다.#Review#Video Understanding#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Adaptive Reasoning#Early Exit#Multimodal LLM#Video QA#Temporal Grounding2026년 1월 8일댓글 수 로딩 중
[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and GenerationarXiv에 게시된 'JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Sounding Video#Video Comprehension#Video Generation#Audio-Video Synchronization#Instruction Tuning#Diffusion Model#Encoder-Decoder2025년 12월 31일댓글 수 로딩 중
[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and VideosZhixun Li이 arXiv에 게시한 'AdaTooler-V: Adaptive Tool-Use for Images and Videos' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Adaptive Tool-Use#Reinforcement Learning#Chain-of-Thought#Vision-Language Models#Visual Reasoning#AT-GRPO2025년 12월 18일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with ImagesTao Jin이 arXiv에 게시한 'Thinking with Programming Vision: Towards a Unified View for Thinking with Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI AgentsKaiwen Zhou이 arXiv에 게시한 'HiconAgent: History Context-aware Policy Optimization for GUI Agents' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agents#Reinforcement Learning#Context-aware#History Compression#Policy Optimization#Multimodal LLM#Dynamic Sampling2025년 12월 1일댓글 수 로딩 중
[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of ImagesFilippos Kokkinos이 arXiv에 게시한 'From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Human Cognition#Image Perception#Benchmarking#Supervised Fine-tuning#Image Generation#Aesthetics#Memorability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?Zicheng Liu이 arXiv에 게시한 'CaptionQA: Is Your Caption as Useful as the Image Itself?' 논문에 대한 자세한 리뷰입니다.#Review#Image Captioning#Caption Evaluation#Multimodal LLM#Utility-based Benchmark#Question Answering (QA)#Domain-specific Taxonomy#Hallucination#MLLM Evaluation2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Plan-X: Instruct Video Generation via Semantic PlanningChenxu Zhang이 arXiv에 게시한 'Plan-X: Instruct Video Generation via Semantic Planning' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Semantic Planning#Multimodal LLM#Diffusion Transformer#Spatio-temporal Guidance#Visual Hallucination#Prompt Alignment#Instruction Following2025년 11월 24일댓글 수 로딩 중
[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent BenchmarkBangwei Guo이 arXiv에 게시한 'M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Tool Use#Agent Benchmark#Model Context Protocol#Multi-Hop Reasoning#Multi-Threaded Execution#Evaluation Metrics#Similarity Alignment2025년 11월 24일댓글 수 로딩 중
[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language ModelBo Yan이 arXiv에 게시한 'MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Microscopy VQA#Multimodal LLM#Weak Supervision#Graph Neural Networks#Dataset Generation#Biomedical Imaging#Scientific Reasoning#Cross-Modal Consistency2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query AugmentationJaehyun Park이 arXiv에 게시한 'Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Embedders#Query Augmentation#Adaptive Learning#Multimodal LLM#Information Retrieval#Generative AI#Embedding Latency2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Omni Technical ReportBin Xiao이 arXiv에 게시한 'LongCat-Flash-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Omni-modal AI#Multimodal LLM#Real-time Interaction#Mixture-of-Experts (MoE)#Streaming Inference#Distributed Training#Curriculum Learning#Audio-Visual Perception2025년 11월 9일댓글 수 로딩 중
[논문리뷰] L^2M^3OF: A Large Language Multimodal Model for Metal-Organic FrameworksXenophon Evangelopoulos이 arXiv에 게시한 'L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Metal-Organic Frameworks (MOFs)#Materials Discovery#Crystal Representation Learning#Instruction Tuning#Structure-Property Prediction#Knowledge Generation2025년 10월 31일댓글 수 로딩 중
[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web SearcharXiv에 게시된 'DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Web Search#Visual Question Answering#Reinforcement Learning#Image Cropping#Self-Correction#Tool Use2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k CorpusZhonghao Zhang이 arXiv에 게시한 'SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus' 논문에 대한 자세한 리뷰입니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language ModelsYu-Chiang Frank Wang이 arXiv에 게시한 'LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#OOD Adaptation#Label Efficiency#VQA#Semi-Supervised Learning#Neuron Distillation#Pseudo Labeling#Medical Imaging2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal IntegrationXiangyang Xia이 arXiv에 게시한 'BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Subject Consistency#Cross-Modal Integration#Diffusion Models#Multimodal LLM#Diffusion Transformer#Text-to-Video2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-trainingKoustuv Sinha이 arXiv에 게시한 'Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training' 논문에 대한 자세한 리뷰입니다.#Review#LLM Visual Priors#Language Pre-training#Multimodal LLM#Data Mixture Optimization#Reasoning Prior#Perception Prior#VQA#MLE-Bench2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI AgentsarXiv에 게시된 'Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agents#On-Device AI#Multimodal LLM#GUI Grounding#GUI Navigation#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data2025년 10월 1일댓글 수 로딩 중
[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-AgentsJinyuan Li이 arXiv에 게시한 'D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents' 논문에 대한 자세한 리뷰입니다.#Review#Mobile GUI Automation#Multi-Agent System#Cognitive Architecture#Pre-execution Alignment#Post-execution Reflection#Retrieval-Augmented Generation#Multimodal LLM#Deliberative AI2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizerjialingt이 arXiv에 게시한 'MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Hybrid Tokenizer#Text-to-Image Generation#Visual Question Answering#Autoregressive Model#Diffusion Decoder#Unified Architecture#Model Scaling2025년 9월 22일댓글 수 로딩 중
[논문리뷰] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World GenerationZhan Zhao이 arXiv에 게시한 'LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#3D World Generation#Unreal Engine 5#Procedural Content Generation#Interactive Environments#Sim-to-Real#Spatial Understanding#Multimodal Input2025년 9월 8일댓글 수 로딩 중
[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and PlanningYufeng Zhong이 arXiv에 게시한 'UItron: Foundational GUI Agent with Advanced Perception and Planning' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agent#Foundational Model#Multimodal LLM#Perception#Planning#Reinforcement Learning#Data Engineering#Chinese App Scenarios2025년 9월 1일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding ModelsDongdong Zhang이 arXiv에 게시한 'VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP LatentsMohit Bansal이 arXiv에 게시한 'Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLM#Diffusion Model#CLIP Latent#Image Generation#Multimodal Understanding#ControlNet#Training Efficiency2025년 8월 12일댓글 수 로딩 중