[논문리뷰] MMA: Multimodal Memory AgentarXiv에 게시된 'MMA: Multimodal Memory Agent' 논문에 대한 자세한 리뷰입니다.2026년 2월 19일댓글 수 로딩 중
[논문리뷰] UniT: Unified Multimodal Chain-of-Thought Test-time ScalingAnimesh Sinha이 arXiv에 게시한 'UniT: Unified Multimodal Chain-of-Thought Test-time Scaling' 논문에 대한 자세한 리뷰입니다.2026년 2월 18일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal IntelligencearXiv에 게시된 'OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence' 논문에 대한 자세한 리뷰입니다.2026년 2월 16일댓글 수 로딩 중
[논문리뷰] DeepSight: An All-in-One LM Safety ToolkitarXiv에 게시된 'DeepSight: An All-in-One LM Safety Toolkit' 논문에 대한 자세한 리뷰입니다.2026년 2월 13일댓글 수 로딩 중
[논문리뷰] P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics OlympiadsarXiv에 게시된 'P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads' 논문에 대한 자세한 리뷰입니다.2026년 2월 11일댓글 수 로딩 중
[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio GenerationarXiv에 게시된 'MOVA: Towards Scalable and Synchronized Video-Audio Generation' 논문에 대한 자세한 리뷰입니다.2026년 2월 10일댓글 수 로딩 중
[논문리뷰] BABE: Biology Arena BEnchmarkarXiv에 게시된 'BABE: Biology Arena BEnchmark' 논문에 대한 자세한 리뷰입니다.2026년 2월 6일댓글 수 로딩 중
[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific TasksarXiv에 게시된 'Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks' 논문에 대한 자세한 리뷰입니다.2026년 2월 4일댓글 수 로딩 중
[논문리뷰] Kimi K2.5: Visual Agentic IntelligencearXiv에 게시된 'Kimi K2.5: Visual Agentic Intelligence' 논문에 대한 자세한 리뷰입니다.2026년 2월 3일댓글 수 로딩 중
[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task ExecutionYusai Zhao이 arXiv에 게시한 'OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution' 논문에 대한 자세한 리뷰입니다.2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Visual Generation Unlocks Human-Like Reasoning through Multimodal World ModelsarXiv에 게시된 'Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models' 논문에 대한 자세한 리뷰입니다.2026년 1월 28일댓글 수 로딩 중
[논문리뷰] SkyReels-V3 Technique ReportarXiv에 게시된 'SkyReels-V3 Technique Report' 논문에 대한 자세한 리뷰입니다.2026년 1월 27일댓글 수 로딩 중
[논문리뷰] AR-Omni: A Unified Autoregressive Model for Any-to-Any GenerationarXiv에 게시된 'AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation' 논문에 대한 자세한 리뷰입니다.2026년 1월 27일댓글 수 로딩 중
[논문리뷰] FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language NavigationarXiv에 게시된 'FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation' 논문에 대한 자세한 리뷰입니다.2026년 1월 21일댓글 수 로딩 중
[논문리뷰] SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved LiteraturearXiv에 게시된 'SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature' 논문에 대한 자세한 리뷰입니다.2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and GroundingMohammadreza Salehi이 arXiv에 게시한 'Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] TranslateGemma Technical ReportarXiv에 게시된 'TranslateGemma Technical Report' 논문에 대한 자세한 리뷰입니다.2026년 1월 15일댓글 수 로딩 중
[논문리뷰] LTX-2: Efficient Joint Audio-Visual Foundation ModelAndrew Kvochko이 arXiv에 게시한 'LTX-2: Efficient Joint Audio-Visual Foundation Model' 논문에 대한 자세한 리뷰입니다.2026년 1월 7일댓글 수 로딩 중
[논문리뷰] NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and GenerationarXiv에 게시된 'NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.2026년 1월 6일댓글 수 로딩 중
[논문리뷰] DreamOmni3: Scribble-based Editing and GenerationarXiv에 게시된 'DreamOmni3: Scribble-based Editing and Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model BackbonearXiv에 게시된 'Dream-VL & Dream-VLA: Open Vision-Language and Vision-Language-Action Models with Diffusion Language Model Backbone' 논문에 대한 자세한 리뷰입니다.2025년 12월 30일댓글 수 로딩 중
[논문리뷰] SlideTailor: Personalized Presentation Slide Generation for Scientific PapersarXiv에 게시된 'SlideTailor: Personalized Presentation Slide Generation for Scientific Papers' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and UnderstandingYixin Chen이 arXiv에 게시한 'Omni-Weather: Unified Multimodal Foundation Model for Weather Generation and Understanding' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual SearchJierun Chen이 arXiv에 게시한 'InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language ModelsarXiv에 게시된 'Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation ModelarXiv에 게시된 'Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model' 논문에 대한 자세한 리뷰입니다.2025년 12월 19일댓글 수 로딩 중
[논문리뷰] N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language ModelsarXiv에 게시된 'N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 19일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?arXiv에 게시된 'VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?' 논문에 대한 자세한 리뷰입니다.2025년 12월 18일댓글 수 로딩 중
[논문리뷰] DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language ModelsarXiv에 게시된 'DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 18일댓글 수 로딩 중
[논문리뷰] The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model FactualityarXiv에 게시된 'The FACTS Leaderboard: A Comprehensive Benchmark for Large Language Model Factuality' 논문에 대한 자세한 리뷰입니다.2025년 12월 12일댓글 수 로딩 중
[논문리뷰] From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning TasksYang Li이 arXiv에 게시한 'From Imitation to Discrimination: Toward A Generalized Curriculum Advantage Mechanism Enhancing Cross-Domain Reasoning Tasks' 논문에 대한 자세한 리뷰입니다.2025년 12월 8일댓글 수 로딩 중
[논문리뷰] TV2TV: A Unified Framework for Interleaved Language and Video GenerationarXiv에 게시된 'TV2TV: A Unified Framework for Interleaved Language and Video Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 5일댓글 수 로딩 중
[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio GenerationarXiv에 게시된 'ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearcharXiv에 게시된 'Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] WiseEdit: Benchmarking Cognition- and Creativity-Informed Image EditingWendong Bu이 arXiv에 게시한 'WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] LFM2 Technical ReportarXiv에 게시된 'LFM2 Technical Report' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] From Code Foundation Models to Agents and Applications: A Practical Guide to Code IntelligencearXiv에 게시된 'From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Envision: Benchmarking Unified Understanding & Generation for Causal World Process InsightsarXiv에 게시된 'Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights' 논문에 대한 자세한 리뷰입니다.2025년 12월 2일댓글 수 로딩 중
[논문리뷰] MIRA: Multimodal Iterative Reasoning Agent for Image EditingJiebo Luo이 arXiv에 게시한 'MIRA: Multimodal Iterative Reasoning Agent for Image Editing' 논문에 대한 자세한 리뷰입니다.2025년 11월 28일댓글 수 로딩 중
[논문리뷰] SPHINX: A Synthetic Environment for Visual Perception and ReasoningNidhi Rastogi이 arXiv에 게시한 'SPHINX: A Synthetic Environment for Visual Perception and Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Harmony: Harmonizing Audio and Video Generation through Cross-Task SynergyarXiv에 게시된 'Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy' 논문에 대한 자세한 리뷰입니다.2025년 11월 27일댓글 수 로딩 중
[논문리뷰] Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language ReasoningarXiv에 게시된 'Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPOarXiv에 게시된 'Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO' 논문에 대한 자세한 리뷰입니다.2025년 11월 21일댓글 수 로딩 중
[논문리뷰] V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation ModelsBaijiong Lin이 arXiv에 게시한 'V-ReasonBench: Toward Unified Reasoning Benchmark Suite for Video Generation Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 21일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video UnderstandingarXiv에 게시된 'TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding' 논문에 대한 자세한 리뷰입니다.2025년 11월 21일댓글 수 로딩 중
[논문리뷰] TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language ModelsRong Zhao이 arXiv에 게시한 'TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 19일댓글 수 로딩 중
[논문리뷰] MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMsKaijie Chen이 arXiv에 게시한 'MVI-Bench: A Comprehensive Benchmark for Evaluating Robustness to Misleading Visual Inputs in LVLMs' 논문에 대한 자세한 리뷰입니다.2025년 11월 19일댓글 수 로딩 중
[논문리뷰] HI-TransPA: Hearing Impairments Translation Personal AssistantarXiv에 게시된 'HI-TransPA: Hearing Impairments Translation Personal Assistant' 논문에 대한 자세한 리뷰입니다.2025년 11월 17일댓글 수 로딩 중
[논문리뷰] GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal ModelsSiyuan Li이 arXiv에 게시한 'GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language ModelsarXiv에 게시된 'Music Flamingo: Scaling Music Understanding in Audio Language Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 14일댓글 수 로딩 중
[논문리뷰] V-Thinker: Interactive Thinking with ImagesPeiqing Yang이 arXiv에 게시한 'V-Thinker: Interactive Thinking with Images' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal InteractionsarXiv에 게시된 'UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-ThoughtarXiv에 게시된 'When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual RepresentationarXiv에 게시된 'VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal GenerationFeng Li이 arXiv에 게시한 'ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] A Survey on Efficient Vision-Language-Action ModelsarXiv에 게시된 'A Survey on Efficient Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web GamesJustin Cui이 arXiv에 게시한 'Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games' 논문에 대한 자세한 리뷰입니다.2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and GenerationarXiv에 게시된 'Ming-Flash-Omni: A Sparse, Unified Architecture for Multimodal Perception and Generation' 논문에 대한 자세한 리뷰입니다.2025년 10월 30일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form PreferencesarXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.2025년 10월 28일댓글 수 로딩 중
[논문리뷰] Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMSarXiv에 게시된 'Mitigating Attention Sinks and Massive Activations in Audio-Visual Speech Recognition with LLMS' 논문에 대한 자세한 리뷰입니다.2025년 10월 28일댓글 수 로딩 중
[논문리뷰] A Definition of AGIYarin Gal이 arXiv에 게시한 'A Definition of AGI' 논문에 대한 자세한 리뷰입니다.2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and FilteringarXiv에 게시된 'Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval and Filtering' 논문에 대한 자세한 리뷰입니다.2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Glyph: Scaling Context Windows via Visual-Text CompressionWenyi Hong이 arXiv에 게시한 'Glyph: Scaling Context Windows via Visual-Text Compression' 논문에 대한 자세한 리뷰입니다.2025년 10월 21일댓글 수 로딩 중
[논문리뷰] MorphoBench: A Benchmark with Difficulty Adaptive to Model ReasoningarXiv에 게시된 'MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] BLIP3o-NEXT: Next Frontier of Native Image GenerationarXiv에 게시된 'BLIP3o-NEXT: Next Frontier of Native Image Generation' 논문에 대한 자세한 리뷰입니다.2025년 10월 20일댓글 수 로딩 중
[논문리뷰] UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoEarXiv에 게시된 'UniMoE-Audio: Unified Speech and Music Generation with Dynamic-Capacity MoE' 논문에 대한 자세한 리뷰입니다.2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Uni-MMMU: A Massive Multi-discipline Multimodal Unified BenchmarkarXiv에 게시된 'Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark' 논문에 대한 자세한 리뷰입니다.2025년 10월 16일댓글 수 로딩 중
[논문리뷰] LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action ModelsarXiv에 게시된 'LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Generative Universal Verifier as Multimodal Meta-ReasonerarXiv에 게시된 'Generative Universal Verifier as Multimodal Meta-Reasoner' 논문에 대한 자세한 리뷰입니다.2025년 10월 16일댓글 수 로딩 중
[논문리뷰] Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMsarXiv에 게시된 'Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs' 논문에 대한 자세한 리뷰입니다.2025년 10월 13일댓글 수 로딩 중
[논문리뷰] UniVideo: Unified Understanding, Generation, and Editing for VideosXintao Wang이 arXiv에 게시한 'UniVideo: Unified Understanding, Generation, and Editing for Videos' 논문에 대한 자세한 리뷰입니다.2025년 10월 10일댓글 수 로딩 중
[논문리뷰] SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal ModelsMohit Bansal이 arXiv에 게시한 'SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 10일댓글 수 로딩 중
[논문리뷰] InstructX: Towards Unified Visual Editing with MLLM GuidanceXinghui Li이 arXiv에 게시한 'InstructX: Towards Unified Visual Editing with MLLM Guidance' 논문에 대한 자세한 리뷰입니다.2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous TokenizerarXiv에 게시된 'Ming-UniVision: Joint Image Understanding and Generation with a Unified Continuous Tokenizer' 논문에 대한 자세한 리뷰입니다.2025년 10월 9일댓글 수 로딩 중
[논문리뷰] MoME: Mixture of Matryoshka Experts for Audio-Visual Speech RecognitionarXiv에 게시된 'MoME: Mixture of Matryoshka Experts for Audio-Visual Speech Recognition' 논문에 대한 자세한 리뷰입니다.2025년 10월 7일댓글 수 로딩 중
[논문리뷰] Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge GraphsZeyi Liao이 arXiv에 게시한 'Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs' 논문에 대한 자세한 리뷰입니다.2025년 10월 7일댓글 수 로딩 중
[논문리뷰] WAInjectBench: Benchmarking Prompt Injection Detections for Web AgentsNeil Zhenqiang Gong이 arXiv에 게시한 'WAInjectBench: Benchmarking Prompt Injection Detections for Web Agents' 논문에 대한 자세한 리뷰입니다.2025년 10월 6일댓글 수 로딩 중
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayJing Shi이 arXiv에 게시한 'Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] TAU: A Benchmark for Cultural Sound Understanding Beyond SemanticsSzu-Chi Chen이 arXiv에 게시한 'TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive BenchmarkYuran Wang이 arXiv에 게시한 'RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark' 논문에 대한 자세한 리뷰입니다.2025년 9월 30일댓글 수 로딩 중
[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and EditingHuanyu Zhang이 arXiv에 게시한 'OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.2025년 9월 30일댓글 수 로딩 중
[논문리뷰] X-Streamer: Unified Human World Modeling with Audiovisual InteractionGuoxian Song이 arXiv에 게시한 'X-Streamer: Unified Human World Modeling with Audiovisual Interaction' 논문에 대한 자세한 리뷰입니다.2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and GenerationZhe Lin이 arXiv에 게시한 'Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.2025년 9월 25일댓글 수 로딩 중
[논문리뷰] Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and GenerationJianbin Zheng이 arXiv에 게시한 'Hyper-Bagel: A Unified Acceleration Framework for Multimodal Understanding and Generation' 논문에 대한 자세한 리뷰입니다.2025년 9월 24일댓글 수 로딩 중
[논문리뷰] FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questionstengdai722이 arXiv에 게시한 'FlagEval Findings Report: A Preliminary Evaluation of Large Reasoning Models on Automatically Verifiable Textual and Visual Questions' 논문에 대한 자세한 리뷰입니다.2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing AgentsChao Zhang이 arXiv에 게시한 'Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents' 논문에 대한 자세한 리뷰입니다.2025년 9월 22일댓글 수 로딩 중
[논문리뷰] EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound IntelligenceQinghua Huang이 arXiv에 게시한 'EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound Intelligence' 논문에 대한 자세한 리뷰입니다.2025년 9월 19일댓글 수 로딩 중
[논문리뷰] AToken: A Unified Tokenizer for VisionMingze Xu이 arXiv에 게시한 'AToken: A Unified Tokenizer for Vision' 논문에 대한 자세한 리뷰입니다.2025년 9월 19일댓글 수 로딩 중
[논문리뷰] PersonaX: Multimodal Datasets with LLM-Inferred Behavior TraitsZhenhao Chen이 arXiv에 게시한 'PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits' 논문에 대한 자세한 리뷰입니다.2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Lost in Embeddings: Information Loss in Vision-Language ModelsIvan Vulić이 arXiv에 게시한 'Lost in Embeddings: Information Loss in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal GroundingLi Zheng이 arXiv에 게시한 'Dr.V: A Hierarchical Perception-Temporal-Cognition Framework to Diagnose Video Hallucination by Fine-grained Spatial-Temporal Grounding' 논문에 대한 자세한 리뷰입니다.2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart UnderstandingEthan Chern이 arXiv에 게시한 'Visual Programmability: A Guide for Code-as-Thought in Chart Understanding' 논문에 대한 자세한 리뷰입니다.2025년 9월 12일댓글 수 로딩 중
[논문리뷰] A Survey of Reinforcement Learning for Large Reasoning ModelsRunze Liu이 arXiv에 게시한 'A Survey of Reinforcement Learning for Large Reasoning Models' 논문에 대한 자세한 리뷰입니다.2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Reinforcement Learning Foundations for Deep Research Systems: A SurveyWei Han이 arXiv에 게시한 'Reinforcement Learning Foundations for Deep Research Systems: A Survey' 논문에 대한 자세한 리뷰입니다.2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula DiscoveryWenjie Zhou이 arXiv에 게시한 'Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery' 논문에 대한 자세한 리뷰입니다.2025년 9월 1일댓글 수 로딩 중
[논문리뷰] CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & SparsificationLiqiang Nie이 arXiv에 게시한 'CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification' 논문에 대한 자세한 리뷰입니다.2025년 8월 29일댓글 수 로딩 중
[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language ModelsYixiao Ge이 arXiv에 게시한 'AudioStory: Generating Long-Form Narrative Audio with Large Language Models' 논문에 대한 자세한 리뷰입니다.2025년 8월 28일댓글 수 로딩 중
[논문리뷰] Explain Before You Answer: A Survey on Compositional Visual ReasoningXin Zheng이 arXiv에 게시한 'Explain Before You Answer: A Survey on Compositional Visual Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 8월 26일댓글 수 로딩 중
[논문리뷰] When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video UnderstandingRui Guo이 arXiv에 게시한 'When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding' 논문에 대한 자세한 리뷰입니다.2025년 8월 22일댓글 수 로딩 중
[논문리뷰] ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?Daeyoung Kim이 arXiv에 게시한 'ViExam: Are Vision Language Models Better than Humans on Vietnamese Multimodal Exam Questions?' 논문에 대한 자세한 리뷰입니다.2025년 8월 21일댓글 수 로딩 중
[논문리뷰] MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General IntelligenceFernando López이 arXiv에 게시한 'MMAU-Pro: A Challenging and Comprehensive Benchmark for Holistic Evaluation of Audio General Intelligence' 논문에 대한 자세한 리뷰입니다.2025년 8월 20일댓글 수 로딩 중
[논문리뷰] A Survey on Diffusion Language ModelsZhiqiang Shen이 arXiv에 게시한 'A Survey on Diffusion Language Models' 논문에 대한 자세한 리뷰입니다.2025년 8월 15일댓글 수 로딩 중
[논문리뷰] Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and SentencesMatvey Skripkin이 arXiv에 게시한 'Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences' 논문에 대한 자세한 리뷰입니다.2025년 8월 12일댓글 수 로딩 중
[논문리뷰] MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D MeshYi Yang이 arXiv에 게시한 'MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh' 논문에 대한 자세한 리뷰입니다.2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and GenerationTianyidan Xie이 arXiv에 게시한 'Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation' 논문에 대한 자세한 리뷰입니다.2025년 8월 6일댓글 수 로딩 중