[논문리뷰] Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete DiffusionarXiv에 게시된 'Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Discrete Diffusion Models#Masked Language Modeling#Unified Generative Models#Any-to-Any#Speech-to-Image#Visual Question Answering2026년 3월 10일댓글 수 로딩 중
[논문리뷰] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion ModelarXiv에 게시된 'LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model' 논문에 대한 자세한 리뷰입니다.#Review#Omni Diffusion Model#Multimodal AI#Length Adaptation#Mixture of Diffusion#Discrete Diffusion#Continuous Diffusion#Text-to-Image Generation2026년 3월 2일댓글 수 로딩 중
[논문리뷰] VecGlypher: Unified Vector Glyph Generation with Language ModelsarXiv에 게시된 'VecGlypher: Unified Vector Glyph Generation with Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vector Graphics#Glyph Generation#Language Models#Multimodal AI#SVG#Font Design#Text-to-Vector#Image-to-Vector2026년 2월 25일댓글 수 로딩 중
[논문리뷰] The Design Space of Tri-Modal Masked Diffusion ModelsarXiv에 게시된 'The Design Space of Tri-Modal Masked Diffusion Models' 논문에 대한 자세한 리뷰입니다.#Review#Masked Diffusion Models#Multimodal AI#Scaling Laws#Discrete Diffusion#SDE Parameterization#Hyperparameter Transfer#Unified Generation2026년 2월 25일댓글 수 로딩 중
[논문리뷰] NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language PriorsXinchao Wang이 arXiv에 게시한 'NoLan: Mitigating Object Hallucinations in Large Vision-Language Models via Dynamic Suppression of Language Priors' 논문에 대한 자세한 리뷰입니다.#Review#Large Vision-Language Models (LVLMs)#Object Hallucinations#Language Priors#Contrastive Decoding#Dynamic Suppression#Training-Free#Multimodal AI2026년 2월 25일댓글 수 로딩 중
[논문리뷰] SenTSR-Bench: Thinking with Injected Knowledge for Time-Series ReasoningHaotian Lin이 arXiv에 게시한 'SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Time-Series Reasoning#Knowledge Injection#Large Language Models (LLMs)#Reinforcement Learning (RL)#Diagnostic AI#Multimodal AI#SenTSR-Bench2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Mobile-O: Unified Multimodal Understanding and Generation on Mobile DevicearXiv에 게시된 'Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Vision-Language Models#Diffusion Models#Mobile Devices#Edge Computing#Model Efficiency#Unified Architecture#Real-time Inference2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Selective Training for Large Vision Language Models via Visual Information GainarXiv에 게시된 'Selective Training for Large Vision Language Models via Visual Information Gain' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Visual Grounding#Language Bias Mitigation#Selective Training#Perplexity Metric#Data Efficiency#Multimodal AI2026년 2월 22일댓글 수 로딩 중
[논문리뷰] MMA: Multimodal Memory AgentarXiv에 게시된 'MMA: Multimodal Memory Agent' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Memory-Augmented Agents#Reliability Assessment#Epistemic Prudence#RAG Systems#Confidence Scoring#Belief Dynamics#Multimodal Conflict2026년 2월 18일댓글 수 로딩 중
[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time ScalingAnimesh Sinha이 arXiv에 게시한 'UniT: Unified Multimodal Chain-of-Thought Test-time Scaling' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Chain-of-Thought#Test-time Scaling#Unified Models#Iterative Reasoning#Image Generation#Visual Reasoning#Self-Correction2026년 2월 17일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal IntelligencearXiv에 게시된 'OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Video Understanding#Sparse Attention#Vision Transformer#Codec-Aligned Processing#Self-Supervised Learning#Predictive Coding#Efficient AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] DeepSight: An All-in-One LM Safety ToolkitarXiv에 게시된 'DeepSight: An All-in-One LM Safety Toolkit' 논문에 대한 자세한 리뷰입니다.#Review#LM Safety#Evaluation#Diagnosis#Multimodal AI#Frontier AI Risks#Black-box Analysis#White-box Insight#Open-source Toolkit2026년 2월 12일댓글 수 로딩 중
[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics OlympiadsarXiv에 게시된 'P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Reinforcement Learning#Curriculum Learning#Physics Olympiads#Scientific Reasoning#Agentic AI#Multimodal AI#Physics2026년 2월 10일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio GenerationarXiv에 게시된 'MOVA: Towards Scalable and Synchronized Video-Audio Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video-Audio Generation#Diffusion Transformer#Multimodal AI#Lip Synchronization#Open Source#Data Curation#Dual-Tower Architecture#Cross-Attention2026년 2월 9일댓글 수 로딩 중
[논문리뷰] BABE: Biology Arena BEnchmarkarXiv에 게시된 'BABE: Biology Arena BEnchmark' 논문에 대한 자세한 리뷰입니다.#Review#Biology Benchmark#Large Language Models#Experimental Reasoning#Causal Inference#Cross-Scale Inference#Multimodal AI#Scientific Reasoning#Research Agents2026년 2월 5일댓글 수 로딩 중
[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific TasksarXiv에 게시된 'Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Unified Framework#Multimodal AI#Embodied AI#Physical Understanding#Long-term Consistency#AI Agents#Generative Models2026년 2월 3일댓글 수 로딩 중
[논문리뷰] Kimi K2.5: Visual Agentic IntelligencearXiv에 게시된 'Kimi K2.5: Visual Agentic Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Agentic Intelligence#Vision-Language Models#Parallel Agent Orchestration#Reinforcement Learning#Joint Optimization#Visual Reasoning#Software Engineering2026년 2월 2일댓글 수 로딩 중
[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task ExecutionYusai Zhao이 arXiv에 게시한 'OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution' 논문에 대한 자세한 리뷰입니다.#Review#GUI Agent#Multimodal AI#MoE#Data Synthesis#Reinforcement Learning#Cross-Platform#Benchmarking2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Visual Generation Unlocks Human-Like Reasoning through Multimodal World ModelsarXiv에 게시된 'Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#World Models#Visual Generation#Chain-of-Thought (CoT)#Multimodal Reasoning#Unified Multimodal Models#Spatial-Physical Reasoning2026년 1월 27일댓글 수 로딩 중
[논문리뷰] SkyReels-V3 Technique ReportarXiv에 게시된 'SkyReels-V3 Technique Report' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multimodal AI#Diffusion Models#Transformer Architecture#Reference-guided Generation#Video-to-Video#Audio-driven Animation#Temporal Consistency2026년 1월 26일댓글 수 로딩 중
[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any GenerationarXiv에 게시된 'AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Multimodal AI#Any-to-Any Generation#Unified Model#Speech Generation#Image Generation#Transformer Decoder#Real-time Streaming2026년 1월 26일댓글 수 로딩 중
[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language NavigationarXiv에 게시된 'FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Navigation#Chain-of-Thought Reasoning#Multimodal AI#Implicit Reasoning#Visual AutoRegressor#Embodied AI#Long-Horizon Planning2026년 1월 20일댓글 수 로딩 중
[논문리뷰] SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved LiteraturearXiv에 게시된 'SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature' 논문에 대한 자세한 리뷰입니다.#Review#Long-Context Understanding#Multimodal AI#Scientific Literature#Evidence-based Reasoning#MLLM Evaluation#Benchmarking#Cross-modal Reasoning#Information Synthesis2026년 1월 19일댓글 수 로딩 중
[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and GroundingMohammadreza Salehi이 arXiv에 게시한 'Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Video Understanding#Grounding#Open Weights#Open Data#Multimodal AI#Object Tracking#Dense Captioning2026년 1월 15일댓글 수 로딩 중
[논문리뷰] TranslateGemma Technical ReportarXiv에 게시된 'TranslateGemma Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Machine Translation#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Gemma 3#Multimodal AI#Synthetic Data2026년 1월 14일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation ModelAndrew Kvochko이 arXiv에 게시한 'LTX-2: Efficient Joint Audio-Visual Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Text-to-Audio-Video#Diffusion Transformer#Cross-Modal Attention#Classifier-Free Guidance#Efficient Inference#Foundation Model2026년 1월 6일댓글 수 로딩 중
[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and GenerationarXiv에 게시된 'NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Decoder-only Transformer#Next-scale Prediction#Image Generation#Image Editing#Reinforcement Learning#Unified Modeling#TokenFlow2026년 1월 5일댓글 수 로딩 중
[논문리뷰] DreamOmni3: Scribble-based Editing and GenerationarXiv에 게시된 'DreamOmni3: Scribble-based Editing and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Image Generation#Scribble-based Control#Multimodal AI#Diffusion Models#Data Synthesis#Human-Computer Interaction#Instruction-based Editing2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model BackbonearXiv에 게시된 'Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Vision-Language Models#Vision-Language-Action Models#Robotics#Multimodal AI#Action Planning#Long-Horizon Planning#Bidirectional Attention2025년 12월 29일댓글 수 로딩 중
[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific PapersarXiv에 게시된 'SlideTailor: Personalized Presentation Slide Generation for Scientific Papers' 논문에 대한 자세한 리뷰입니다.#Review#Personalized Slide Generation#Preference Learning#Large Language Models#Multimodal AI#Chain-of-Speech#Agentic Framework#Document-to-Slides2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and UnderstandingYixin Chen이 arXiv에 게시한 'Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Model#Multimodal AI#Weather Nowcasting#Radar Inversion#Weather Understanding#Chain-of-Thought#Shared Attention2025년 12월 28일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual SearchJierun Chen이 arXiv에 게시한 'InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Search#Foundation Models#Multi-agent Systems#Reinforcement Learning#Benchmarking#Visual Reasoning2025년 12월 28일댓글 수 로딩 중
[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language ModelsarXiv에 게시된 'Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Dynamic Spatial Reasoning#Vision-Language Models#4D Understanding#Automated Data Generation#Geometry Selection Module#Video Analysis#Multimodal AI2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation ModelarXiv에 게시된 'Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Generation#Diffusion Transformer#Multimodal AI#Speech Synchronization#Video Generation#Reinforcement Learning from Human Feedback#Inference Acceleration2025년 12월 18일댓글 수 로딩 중
[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language ModelsarXiv에 게시된 'N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#3D Grounding#Spatial Reasoning#Vision-Language Models#Depth Estimation#3D Object Detection#Chain-of-Thought#Data Generation#Multimodal AI2025년 12월 18일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?arXiv에 게시된 'VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Text Compression (VTC)#Long Context Understanding#Vision-Language Models (VLMs)#Benchmark#Information Retrieval#Associative Reasoning#Multimodal AI2025년 12월 17일댓글 수 로딩 중
[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language ModelsarXiv에 게시된 'DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Models#Vision Language Models#Autoregressive Models#Diffusion Finetuning#Block Diffusion#Multimodal AI#KV Cache2025년 12월 17일댓글 수 로딩 중
[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model FactualityarXiv에 게시된 'The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Factuality Benchmark#Multimodal AI#Knowledge Grounding#Parametric Knowledge#Retrieval Augmented Generation#Automated Scoring2025년 12월 11일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning TasksYang Li이 arXiv에 게시한 'From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#Curriculum Learning#Advantage Function#Reasoning Tasks#Multimodal AI#Policy Optimization#Generalization2025년 12월 7일댓글 수 로딩 중
[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video GenerationarXiv에 게시된 'TV2TV: A Unified Framework for Interleaved Language and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Language Modeling#Multimodal AI#Interleaved Generation#Flow Matching#Transformer#Controllability#World Models2025년 12월 4일댓글 수 로딩 중
[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio GenerationarXiv에 게시된 'ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation' 논문에 대한 자세한 리뷰입니다.#Review#Binaural Audio Generation#Spatial Audio#Video-Driven#End-to-End#Conditional Flow Matching#Multimodal AI#Deep Learning#Audio-Visual Synthesis2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearcharXiv에 게시된 'Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Agentic Models#Interleaved Reasoning#Image Manipulation#DeepSearch#Supervised Fine-tuning (SFT)#Tool-Augmented LLM2025년 12월 2일댓글 수 로딩 중
[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image EditingWendong Bu이 arXiv에 게시한 'WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Benchmarking#Cognitive AI#Creativity#Multimodal AI#Knowledge-based Reasoning#Diffusion Models#MLLMs2025년 12월 1일댓글 수 로딩 중
[논문리뷰] LFM2 Technical ReportarXiv에 게시된 'LFM2 Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Edge AI#Foundation Models#Hybrid Architecture#Knowledge Distillation#Multimodal AI#On-device Deployment#Efficient Inference#LLM Optimization2025년 12월 1일댓글 수 로딩 중
[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code IntelligencearXiv에 게시된 'From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Code LLMs#Software Engineering Agents#Code Generation#Reinforcement Learning#Supervised Fine-tuning#Multimodal AI#Code Safety#Scaling Laws2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process InsightsarXiv에 게시된 'Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Text-to-Multi-Image#Causal Reasoning#World Knowledge#Benchmarking#Spatiotemporal Consistency#Generative Models#Evaluation Metrics2025년 12월 1일댓글 수 로딩 중
[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image EditingJiebo Luo이 arXiv에 게시한 'MIRA: Multimodal Iterative Reasoning Agent for Image Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Multimodal AI#Iterative Reasoning#Agentic AI#Reinforcement Learning#Diffusion Models#Vision-Language Models#Instruction Following2025년 11월 27일댓글 수 로딩 중
[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and ReasoningNidhi Rastogi이 arXiv에 게시한 'SPHINX: A Synthetic Environment for Visual Perception and Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Visual Reasoning#Synthetic Environment#LVLM Evaluation#Reinforcement Learning#Cognitive Primitives#Procedural Generation#Multimodal AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task SynergyarXiv에 게시된 'Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Generation#Cross-Modal Synchronization#Diffusion Models#Cross-Task Synergy#Classifier-Free Guidance#Multimodal AI#Generative AI2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language ReasoningarXiv에 게시된 'Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Self-Evolving Agent#Vision-Language Models#Tool-Integrated Reasoning#Reinforcement Learning#Self-Correction#Multimodal AI#Generative AI2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPOarXiv에 게시된 'Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Next Event Prediction#Reinforcement Learning#Vision-Language Model#Video Diffusion Model#Joint Optimization#Multimodal AI#Procedural Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation ModelsBaijiong Lin이 arXiv에 게시한 'V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Reasoning Benchmark#Chain-of-Frame#Evaluation#Multimodal AI#Physical Dynamics#Spatial Cognition#Pattern Inference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video UnderstandingarXiv에 게시된 'TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language ModelsRong Zhao이 arXiv에 게시한 'TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#LVLM Evaluation#Global Visual Perception#Topological Properties#Shortcut-Free Benchmark#Visual Bottleneck#Multimodal AI#Synthetic Data2025년 11월 18일댓글 수 로딩 중
[논문리뷰] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMsKaijie Chen이 arXiv에 게시한 'MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs' 논문에 대한 자세한 리뷰입니다.#Review#LVLM Robustness#Misleading Visual Inputs#VQA Benchmark#Visual Perception#Visual Reasoning#MVI-Sensitivity#Multimodal AI2025년 11월 18일댓글 수 로딩 중
[논문리뷰] HI-TransPA: Hearing Impairments Translation Personal AssistantarXiv에 게시된 'HI-TransPA: Hearing Impairments Translation Personal Assistant' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Hearing Impairment#Audio-Visual Speech Recognition#Curriculum Learning#Omni-Models#Assistive Technology#Lip Reading#Speech Translation2025년 11월 16일댓글 수 로딩 중
[논문리뷰] GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal ModelsSiyuan Li이 arXiv에 게시한 'GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Generative Reasoning#Geometric Construction#Benchmark#GeoGebra#Code-based Evaluation#Unified Models2025년 11월 16일댓글 수 로딩 중
[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language ModelsarXiv에 게시된 'Music Flamingo: Scaling Music Understanding in Audio Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Audio Language Models#Music Understanding#Chain-of-Thought#Reinforcement Learning#Data Curation#Multimodal AI#Music Information Retrieval2025년 11월 13일댓글 수 로딩 중
[논문리뷰] V-Thinker: Interactive Thinking with ImagesPeiqing Yang이 arXiv에 게시한 'V-Thinker: Interactive Thinking with Images' 논문에 대한 자세한 리뷰입니다.#Review#Large Multimodal Models#Interactive Reasoning#Vision-Centric Thinking#Reinforcement Learning#Data Synthesis#Visual Tools#Curriculum Learning#Multimodal AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal InteractionsarXiv에 게시된 'UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions' 논문에 대한 자세한 리뷰입니다.#Review#Joint Audio-Video Generation#Cross-Modal Interaction#Diffusion Transformer#Face-Aware Modulation#Classifier-Free Guidance#Multimodal AI#Generative Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-ThoughtarXiv에 게시된 'When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Reasoning#Chain-of-Thought (CoT)#Benchmark#Image Generation#MLLMs#Visual-CoT2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual RepresentationarXiv에 게시된 'VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Code Generation#SVG#Visual Representation#Benchmark#Large Vision-Language Models#Agentic AI#Reasoning2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal GenerationFeng Li이 arXiv에 게시한 'ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Benchmarking#Cross-Modal Reasoning#Omnimodal Generation#Visual Generation#Verbal Generation#Unified Multimodal Models2025년 11월 9일댓글 수 로딩 중
[논문리뷰] A Survey on Efficient Vision-Language-Action ModelsarXiv에 게시된 'A Survey on Efficient Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Robotic Manipulation#VLA Models#Efficient AI#Model Compression#Efficient Training#Data Collection#Multimodal AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web GamesJustin Cui이 arXiv에 게시한 'Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games' 논문에 대한 자세한 리뷰입니다.#Review#Web Agent#Large Language Models#Multimodal AI#Browser Automation#Game AI#ChatGPT Atlas#Performance Evaluation#Human-Computer Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and GenerationarXiv에 게시된 'Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Sparse MoE#Unified Architecture#Perception#Generation#Contextual ASR#Image Editing#Generative Segmentation2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form PreferencesarXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMSarXiv에 게시된 'Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Speech Recognition#Large Language Models#Attention Sinks#Massive Activations#Decorrelation Loss#Fine-tuning#Multimodal AI2025년 10월 28일댓글 수 로딩 중
[논문리뷰] A Definition of AGIYarin Gal이 arXiv에 게시한 'A Definition of AGI' 논문에 대한 자세한 리뷰입니다.#Review#AGI Definition#Cognitive Assessment#Cattell-Horn-Carroll Theory#AI Evaluation#Multimodal AI#Cognitive Domains#Psychometrics2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and FilteringarXiv에 게시된 'Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering' 논문에 대한 자세한 리뷰입니다.#Review#Visual Question Answering#Retrieval-Augmented Generation#Multimodal AI#Reinforcement Learning#Knowledge Base#Tool Learning#Information Filtering2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Glyph: Scaling Context Windows via Visual-Text CompressionWenyi Hong이 arXiv에 게시한 'Glyph: Scaling Context Windows via Visual-Text Compression' 논문에 대한 자세한 리뷰입니다.#Review#Long-Context Modeling#Visual Compression#Vision-Language Models#Token Efficiency#Genetic Algorithms#Multimodal AI#LLM Scaling2025년 10월 21일댓글 수 로딩 중
[논문리뷰] MorphoBench: A Benchmark with Difficulty Adaptive to Model ReasoningarXiv에 게시된 'MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#LLM Evaluation#Reasoning Benchmark#Difficulty Adaptation#Multimodal AI#Proof Graph#Agent Recognition#Automated Question Generation2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image GenerationarXiv에 게시된 'BLIP3o-NEXT: Next Frontier of Native Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Autoregressive Model#Diffusion Model#Reinforcement Learning#Multimodal AI#Foundation Model#Open-source2025년 10월 20일댓글 수 로딩 중
[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoEarXiv에 게시된 'UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE' 논문에 대한 자세한 리뷰입니다.#Review#Mixture of Experts#Speech Generation#Music Generation#Multimodal AI#Dynamic Routing#Training Curriculum#Data Imbalance#Audio Synthesis2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified BenchmarkarXiv에 게시된 'Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Unified Models#Benchmark#Generation#Understanding#Reasoning#Evaluation#Cross-modal Synergy2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action ModelsarXiv에 게시된 'LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Robotics#Robustness Analysis#Generalization#Perturbations#Benchmark#LIBERO-Plus#Multimodal AI2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-ReasonerarXiv에 게시된 'Generative Universal Verifier as Multimodal Meta-Reasoner' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Visual Verification#Generative Models#Self-Refinement#Vision-Language Models#Test-Time Scaling#Reasoning2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMsarXiv에 게시된 'Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Prompt Optimization#MLLMs#Bayesian Optimization#Cross-modal Alignment#Prompt Engineering#Generative AI#Exploration-Exploitation2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for VideosXintao Wang이 arXiv에 게시한 'UniVideo: Unified Understanding, Generation, and Editing for Videos' 논문에 대한 자세한 리뷰입니다.#Review#Unified Multimodal Model#Video Generation#Video Editing#MLLM#Diffusion Transformer#In-Context Learning#Zero-shot Generalization#Multimodal AI2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal ModelsMohit Bansal이 arXiv에 게시한 'SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models' 논문에 대한 자세한 리뷰입니다.#Review#Video Reasoning#Multimodal AI#Scientific Research#Large Multimodal Models#Benchmark#Quantitative Reasoning#Domain Knowledge#Visual Grounding2025년 10월 10일댓글 수 로딩 중
[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM GuidanceXinghui Li이 arXiv에 게시한 'InstructX: Towards Unified Visual Editing with MLLM Guidance' 논문에 대한 자세한 리뷰입니다.#Review#Visual Editing#MLLM Guidance#Diffusion Models#Image Editing#Video Editing#Unified Framework#Multimodal AI#Instruction-based Editing2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous TokenizerarXiv에 게시된 'Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer' 논문에 대한 자세한 리뷰입니다.#Review#Unified Vision-Language Model#Continuous Tokenizer#Autoregressive Generation#Image Understanding#Image Generation#Multimodal AI#In-context Editing2025년 10월 9일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech RecognitionarXiv에 게시된 'MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Audio-Visual Speech Recognition#Mixture of Experts#Matryoshka Representation Learning#Large Language Models#Elastic Inference#Token Compression#Multimodal AI2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge GraphsZeyi Liao이 arXiv에 게시한 'Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs' 논문에 대한 자세한 리뷰입니다.#Review#Agent Evaluation#Task Generation#Knowledge Graphs#Multimodal AI#Web Interaction#Document Comprehension#LLM-driven Agents2025년 10월 7일댓글 수 로딩 중
[논문리뷰] WAInjectBench: Benchmarking Prompt Injection Detections for Web AgentsNeil Zhenqiang Gong이 arXiv에 게시한 'WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents' 논문에 대한 자세한 리뷰입니다.#Review#Prompt Injection#Web Agents#Multimodal AI#Adversarial Attacks#Detection Benchmarking#Large Language Models#Image-based Detection#Text-based Detection2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayJing Shi이 arXiv에 게시한 'Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models (VLMs)#Self-Play#Reinforcement Learning#Gamification#Data Efficiency#Strategic Reasoning#Multimodal AI#Self-Improvement2025년 10월 1일댓글 수 로딩 중
[논문리뷰] TAU: A Benchmark for Cultural Sound Understanding Beyond SemanticsSzu-Chi Chen이 arXiv에 게시한 'TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics' 논문에 대한 자세한 리뷰입니다.#Review#Audio Language Models#Cultural Sound Understanding#Localized Benchmark#Non-semantic Audio#Human-in-the-loop#Multimodal AI#Taipei Soundscape2025년 10월 1일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive BenchmarkYuran Wang이 arXiv에 게시한 'RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.#Review#Unified Models#Multimodal AI#Benchmark#Capability Synergy#Visual Understanding#Image Generation#Dual-Evaluation Protocol2025년 9월 30일댓글 수 로딩 중
[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and EditingHuanyu Zhang이 arXiv에 게시한 'OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Multimodal AI#Dataset#Instruction Following#Taxonomy#GPT-402025년 9월 30일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual InteractionGuoxian Song이 arXiv에 게시한 'X-Streamer: Unified Human World Modeling with Audiovisual Interaction' 논문에 대한 자세한 리뷰입니다.#Review#Digital Human#Multimodal AI#Real-time Streaming#Video Generation#Diffusion Models#Transformer Architecture#Audiovisual Synchronization#World Modeling2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and GenerationZhe Lin이 arXiv에 게시한 'Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Masked Diffusion Models#Image Understanding#Image Generation#Image Editing#Object Grounding#ElasticMoT#Self-reflection2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and GenerationJianbin Zheng이 arXiv에 게시한 'Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Acceleration Framework#Speculative Decoding#Diffusion Distillation#Unified Models#Text-to-Image Generation#Image Editing#Computational Efficiency2025년 9월 24일댓글 수 로딩 중
[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questionstengdai722이 arXiv에 게시한 'FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions' 논문에 대한 자세한 리뷰입니다.#Review#Large Reasoning Models#LLM Evaluation#Multimodal AI#Reasoning Behaviors#Hallucination#Contamination-Free#AI Safety#Instruction Following2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing AgentsChao Zhang이 arXiv에 게시한 'Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents' 논문에 대한 자세한 리뷰입니다.#Review#Role-playing Agents (RPAs)#Multimodal AI#Video Understanding#Large Language Models (LLMs)#Dataset Creation#Dynamic Role Profiles#Adaptive Temporal Sampling#Fine-tuning2025년 9월 22일댓글 수 로딩 중
[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound IntelligenceQinghua Huang이 arXiv에 게시한 'EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Ultrasound Imaging#Medical Diagnosis#Mixture-of-Experts (MoE)#Instruction Tuning#Multimodal AI#Report Generation#VQA2025년 9월 19일댓글 수 로딩 중
[논문리뷰] AToken: A Unified Tokenizer for VisionMingze Xu이 arXiv에 게시한 'AToken: A Unified Tokenizer for Vision' 논문에 대한 자세한 리뷰입니다.#Review#Unified Visual Tokenizer#Multimodal AI#Transformer Architecture#4D Representation#Adversarial-free Training#Reconstruction#Semantic Understanding#Generative Models2025년 9월 19일댓글 수 로딩 중
[논문리뷰] PersonaX: Multimodal Datasets with LLM-Inferred Behavior TraitsZhenhao Chen이 arXiv에 게시한 'PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Dataset#LLM Inference#Behavioral Traits#Causal Representation Learning#Big Five#Multimodal AI#Causal Discovery#Human-Computer Interaction2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Lost in Embeddings: Information Loss in Vision-Language ModelsIvan Vulić이 arXiv에 게시한 'Lost in Embeddings: Information Loss in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models#Information Loss#Embeddings#Connectors#k-NN Overlap Ratio#Embedding Reconstruction#Multimodal AI2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal GroundingLi Zheng이 arXiv에 게시한 'Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding' 논문에 대한 자세한 리뷰입니다.#Review#Video Hallucination#Large Video Models (LVMs)#Hierarchical Reasoning#Spatial-Temporal Grounding#Diagnostic Framework#Benchmark Dataset#Multimodal AI2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart UnderstandingEthan Chern이 arXiv에 게시한 'Visual Programmability: A Guide for Code-as-Thought in Chart Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Visual Programmability#Code-as-Thought (CaT)#Chart Understanding#Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Adaptive Reasoning#Dual-Reward System#Multimodal AI2025년 9월 12일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning ModelsRunze Liu이 arXiv에 게시한 'A Survey of Reinforcement Learning for Large Reasoning Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Reasoning Models#LLMs#Reward Design#Policy Optimization#Verifiable Rewards#Agentic AI#Multimodal AI2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A SurveyWei Han이 arXiv에 게시한 'Reinforcement Learning Foundations for Deep Research Systems: A Survey' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Deep Research Systems#Agentic AI#Tool Use#Hierarchical Agents#Reward Design#Multimodal AI#RL Frameworks2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula DiscoveryWenjie Zhou이 arXiv에 게시한 'Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery' 논문에 대한 자세한 리뷰입니다.#Review#Physics Formula Discovery#Multimodal AI#Vision-Language Models#Symbolic Regression#Causal Chain of Thought#Reinforcement Learning#Agentic AI2025년 9월 1일댓글 수 로딩 중
[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & SparsificationLiqiang Nie이 arXiv에 게시한 'CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Model#Sparsification#Instruction-Driven Routing#Cognition-Aligned AI#Robotics#Computational Efficiency#Multimodal AI2025년 8월 29일댓글 수 로딩 중
[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language ModelsYixiao Ge이 arXiv에 게시한 'AudioStory: Generating Long-Form Narrative Audio with Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-Audio#Long-Form Audio Generation#Large Language Models#Narrative Reasoning#Diffusion Models#Multimodal AI#Progressive Training2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual ReasoningXin Zheng이 arXiv에 게시한 'Explain Before You Answer: A Survey on Compositional Visual Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Compositional Visual Reasoning#Multimodal AI#Vision-Language Models#Large Language Models#Chain-of-Thought#Tool Learning#Agentic AI#Survey2025년 8월 26일댓글 수 로딩 중
[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video UnderstandingRui Guo이 arXiv에 게시한 'When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Video-LLM#Diffusion Model#Temporal Grounding#Object Segmentation#Long Video Understanding#Multimodal AI#Video Question Answering2025년 8월 22일댓글 수 로딩 중
[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?Daeyoung Kim이 arXiv에 게시한 'ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?' 논문에 대한 자세한 리뷰입니다.#Review#Vision Language Models#Multimodal AI#Vietnamese Language#Educational Assessment#Low-Resource Languages#Cross-Lingual Reasoning#ViExam#Human-in-the-Loop2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General IntelligenceFernando López이 arXiv에 게시한 'MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Audio Intelligence#Multimodal AI#Benchmark#Audio-Language Models#Holistic Evaluation#Reasoning#Long-Form Audio#Multicultural Music2025년 8월 20일댓글 수 로딩 중
[논문리뷰] A Survey on Diffusion Language ModelsZhiqiang Shen이 arXiv에 게시한 'A Survey on Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Diffusion Language Models#Generative AI#Parallel Decoding#Text Generation#Multimodal AI#Model Compression#Reinforcement Learning from Human Feedback#Inference Optimization2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and SentencesMatvey Skripkin이 arXiv에 게시한 'Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences' 논문에 대한 자세한 리뷰입니다.#Review#Speech-to-LaTeX#ASR#Language Models#Multimodal AI#Dataset Creation#Mathematical Expression Recognition#LaTeX Generation2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D MeshYi Yang이 arXiv에 게시한 'MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh' 논문에 대한 자세한 리뷰입니다.#Review#3D Mesh Generation#LLMs#Mesh Understanding#Text-to-3D#Primitive-Mesh Decomposition#Progressive Training#Multimodal AI2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and GenerationTianyidan Xie이 arXiv에 게시한 'Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Autoregressive Models#Multimodal AI#Image Generation#Image Editing#Visual Understanding#Unified Architecture#Parameter Efficiency2025년 8월 6일댓글 수 로딩 중