[논문리뷰] UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language ModelarXiv에 게시된 'UniWeTok: An Unified Binary Tokenizer with Codebook Size 2^{128} for Unified Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search AgentsarXiv에 게시된 'REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] MoRL: Reinforced Reasoning for Unified Motion Understanding and GenerationarXiv에 게시된 'MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation' 논문에 대한 자세한 리뷰입니다.2026년 2월 17일댓글 수 로딩 중
[논문리뷰] MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language ModelsYong Man Ro이 arXiv에 게시한 'MAD: Modality-Adaptive Decoding for Mitigating Cross-Modal Hallucinations in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.2026년 1월 30일댓글 수 로딩 중
[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific DiscoveryarXiv에 게시된 'Innovator-VL: A Multimodal Large Language Model for Scientific Discovery' 논문에 대한 자세한 리뷰입니다.2026년 1월 29일댓글 수 로딩 중
[논문리뷰] The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video GenerationarXiv에 게시된 'The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation' 논문에 대한 자세한 리뷰입니다.2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image EditingDingkun Long이 arXiv에 게시한 'Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing' 논문에 대한 자세한 리뷰입니다.2026년 1월 23일댓글 수 로딩 중
[논문리뷰] SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RLarXiv에 게시된 'SkinFlow: Efficient Information Transmission for Open Dermatological Diagnosis via Dynamic Visual Encoding and Staged RL' 논문에 대한 자세한 리뷰입니다.2026년 1월 15일댓글 수 로딩 중
[논문리뷰] VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering TwicearXiv에 게시된 'VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice' 논문에 대한 자세한 리뷰입니다.2026년 1월 9일댓글 수 로딩 중
[논문리뷰] JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and GenerationarXiv에 게시된 'JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation' 논문에 대한 자세한 리뷰입니다.2026년 1월 1일댓글 수 로딩 중
[논문리뷰] AdaTooler-V: Adaptive Tool-Use for Images and VideosZhixun Li이 arXiv에 게시한 'AdaTooler-V: Adaptive Tool-Use for Images and Videos' 논문에 대한 자세한 리뷰입니다.2025년 12월 19일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with ImagesTao Jin이 arXiv에 게시한 'Thinking with Programming Vision: Towards a Unified View for Thinking with Images' 논문에 대한 자세한 리뷰입니다.2025년 12월 4일댓글 수 로딩 중
[논문리뷰] HiconAgent: History Context-aware Policy Optimization for GUI AgentsKaiwen Zhou이 arXiv에 게시한 'HiconAgent: History Context-aware Policy Optimization for GUI Agents' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of ImagesFilippos Kokkinos이 arXiv에 게시한 'From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images' 논문에 대한 자세한 리뷰입니다.2025년 12월 1일댓글 수 로딩 중
[논문리뷰] CaptionQA: Is Your Caption as Useful as the Image Itself?Zicheng Liu이 arXiv에 게시한 'CaptionQA: Is Your Caption as Useful as the Image Itself?' 논문에 대한 자세한 리뷰입니다.2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Plan-X: Instruct Video Generation via Semantic PlanningChenxu Zhang이 arXiv에 게시한 'Plan-X: Instruct Video Generation via Semantic Planning' 논문에 대한 자세한 리뷰입니다.2025년 11월 25일댓글 수 로딩 중
[논문리뷰] M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent BenchmarkBangwei Guo이 arXiv에 게시한 'M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark' 논문에 대한 자세한 리뷰입니다.2025년 11월 25일댓글 수 로딩 중
[논문리뷰] MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language ModelBo Yan이 arXiv에 게시한 'MicroVQA++: High-Quality Microscopy Reasoning Dataset with Weakly Supervised Graphs for Multimodal Large Language Model' 논문에 대한 자세한 리뷰입니다.2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Let Multimodal Embedders Learn When to Augment Query via Adaptive Query AugmentationJaehyun Park이 arXiv에 게시한 'Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] LongCat-Flash-Omni Technical ReportBin Xiao이 arXiv에 게시한 'LongCat-Flash-Omni Technical Report' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] L^2M^3OF: A Large Language Multimodal Model for Metal-Organic FrameworksXenophon Evangelopoulos이 arXiv에 게시한 'L^2M^3OF: A Large Language Multimodal Model for Metal-Organic Frameworks' 논문에 대한 자세한 리뷰입니다.2025년 10월 31일댓글 수 로딩 중
[논문리뷰] DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web SearcharXiv에 게시된 'DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search' 논문에 대한 자세한 리뷰입니다.2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k CorpusZhonghao Zhang이 arXiv에 게시한 'SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus' 논문에 대한 자세한 리뷰입니다.2025년 10월 6일댓글 수 로딩 중
[논문리뷰] LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language ModelsYu-Chiang Frank Wang이 arXiv에 게시한 'LEAML: Label-Efficient Adaptation to Out-of-Distribution Visual Tasks for Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 6일댓글 수 로딩 중
[논문리뷰] BindWeave: Subject-Consistent Video Generation via Cross-Modal IntegrationXiangyang Xia이 arXiv에 게시한 'BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration' 논문에 대한 자세한 리뷰입니다.2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-trainingKoustuv Sinha이 arXiv에 게시한 'Learning to See Before Seeing: Demystifying LLM Visual Priors from Language Pre-training' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI AgentsarXiv에 게시된 'Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-AgentsJinyuan Li이 arXiv에 게시한 'D-Artemis: A Deliberative Cognitive Framework for Mobile GUI Multi-Agents' 논문에 대한 자세한 리뷰입니다.2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizerjialingt이 arXiv에 게시한 'MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer' 논문에 대한 자세한 리뷰입니다.2025년 9월 22일댓글 수 로딩 중
[논문리뷰] LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World GenerationZhan Zhao이 arXiv에 게시한 'LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation' 논문에 대한 자세한 리뷰입니다.2025년 9월 8일댓글 수 로딩 중
[논문리뷰] UItron: Foundational GUI Agent with Advanced Perception and PlanningYufeng Zhong이 arXiv에 게시한 'UItron: Foundational GUI Agent with Advanced Perception and Planning' 논문에 대한 자세한 리뷰입니다.2025년 9월 1일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding ModelsDongdong Zhang이 arXiv에 게시한 'VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models' 논문에 대한 자세한 리뷰입니다.2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP LatentsMohit Bansal이 arXiv에 게시한 'Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents' 논문에 대한 자세한 리뷰입니다.2025년 8월 12일댓글 수 로딩 중