[논문리뷰] NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective ControlarXiv에 게시된 'NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control' 논문에 대한 자세한 리뷰입니다.2026년 2월 13일댓글 수 로딩 중
[논문리뷰] POINTS-GUI-G: GUI-Grounding JourneyLe Tian이 arXiv에 게시한 'POINTS-GUI-G: GUI-Grounding Journey' 논문에 대한 자세한 리뷰입니다.2026년 2월 9일댓글 수 로딩 중
[논문리뷰] AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning ProcessShilin Yan이 arXiv에 게시한 'AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process' 논문에 대한 자세한 리뷰입니다.2026년 2월 4일댓글 수 로딩 중
[논문리뷰] SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation GenerationHongbo Fu이 arXiv에 게시한 'SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation' 논문에 대한 자세한 리뷰입니다.2026년 1월 29일댓글 수 로딩 중
[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal AgentsarXiv에 게시된 'VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents' 논문에 대한 자세한 리뷰입니다.2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Urban Socio-Semantic Segmentation with Vision-Language ReasoningarXiv에 게시된 'Urban Socio-Semantic Segmentation with Vision-Language Reasoning' 논문에 대한 자세한 리뷰입니다.2026년 1월 16일댓글 수 로딩 중
[논문리뷰] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token SelectionarXiv에 게시된 'FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection' 논문에 대한 자세한 리뷰입니다.2026년 1월 15일댓글 수 로딩 중
[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal ReasoningarXiv에 게시된 'See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 12월 29일댓글 수 로딩 중
[논문리뷰] GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM TrainingYuanchun Shi이 arXiv에 게시한 'GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training' 논문에 대한 자세한 리뷰입니다.2025년 12월 26일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language ModelsYu-Lun Liu이 arXiv에 게시한 'Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.2025년 12월 25일댓글 수 로딩 중
[논문리뷰] Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMsarXiv에 게시된 'Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs' 논문에 대한 자세한 리뷰입니다.2025년 12월 23일댓글 수 로딩 중
[논문리뷰] VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?arXiv에 게시된 'VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?' 논문에 대한 자세한 리뷰입니다.2025년 12월 18일댓글 수 로딩 중
[논문리뷰] V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-QuestionsKwesi Cobbina이 arXiv에 게시한 'V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions' 논문에 대한 자세한 리뷰입니다.2025년 12월 16일댓글 수 로딩 중
[논문리뷰] Toward Ambulatory Vision: Learning Visually-Grounded Active View SelectionarXiv에 게시된 'Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection' 논문에 대한 자세한 리뷰입니다.2025년 12월 16일댓글 수 로딩 중
[논문리뷰] ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective LearningYujin Han이 arXiv에 게시한 'ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning' 논문에 대한 자세한 리뷰입니다.2025년 12월 12일댓글 수 로딩 중
[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning GeneralizationarXiv에 게시된 'Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization' 논문에 대한 자세한 리뷰입니다.2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMsarXiv에 게시된 'Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs' 논문에 대한 자세한 리뷰입니다.2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual TokensStephanie Fu이 arXiv에 게시한 'Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens' 논문에 대한 자세한 리뷰입니다.2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language ModelsarXiv에 게시된 'Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models' 논문에 대한 자세한 리뷰입니다.2025년 11월 24일댓글 수 로딩 중
[논문리뷰] First Frame Is the Place to Go for Video Content CustomizationarXiv에 게시된 'First Frame Is the Place to Go for Video Content Customization' 논문에 대한 자세한 리뷰입니다.2025년 11월 21일댓글 수 로딩 중
[논문리뷰] Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning BoundariesZhengzhong Tu이 arXiv에 게시한 'Ariadne: A Controllable Framework for Probing and Extending VLM Reasoning Boundaries' 논문에 대한 자세한 리뷰입니다.2025년 11월 11일댓글 수 로딩 중
[논문리뷰] Vote-in-Context: Turning VLMs into Zero-Shot Rank FusersarXiv에 게시된 'Vote-in-Context: Turning VLMs into Zero-Shot Rank Fusers' 논문에 대한 자세한 리뷰입니다.2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense AlignmentarXiv에 게시된 'ChartAB: A Benchmark for Chart Grounding & Dense Alignment' 논문에 대한 자세한 리뷰입니다.2025년 10월 31일댓글 수 로딩 중
[논문리뷰] VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept SetarXiv에 게시된 'VL-SAE: Interpreting and Enhancing Vision-Language Alignment with a Unified Concept Set' 논문에 대한 자세한 리뷰입니다.2025년 10월 29일댓글 수 로딩 중
[논문리뷰] RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim TranslationKuan-Hsun Tu이 arXiv에 게시한 'RobotArena infty: Scalable Robot Benchmarking via Real-to-Sim Translation' 논문에 대한 자세한 리뷰입니다.2025년 10월 28일댓글 수 로딩 중
[논문리뷰] DSI-Bench: A Benchmark for Dynamic Spatial IntelligencearXiv에 게시된 'DSI-Bench: A Benchmark for Dynamic Spatial Intelligence' 논문에 대한 자세한 리뷰입니다.2025년 10월 22일댓글 수 로딩 중
[논문리뷰] Learning an Image Editing Model without Image Editing PairsarXiv에 게시된 'Learning an Image Editing Model without Image Editing Pairs' 논문에 대한 자세한 리뷰입니다.2025년 10월 17일댓글 수 로딩 중
[논문리뷰] TTRV: Test-Time Reinforcement Learning for Vision Language ModelsSerena Yeung-Levy이 arXiv에 게시한 'TTRV: Test-Time Reinforcement Learning for Vision Language Models' 논문에 대한 자세한 리뷰입니다.2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons LearnedarXiv에 게시된 'Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned' 논문에 대한 자세한 리뷰입니다.2025년 10월 2일댓글 수 로딩 중
[논문리뷰] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-PlayJing Shi이 arXiv에 게시한 'Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play' 논문에 대한 자세한 리뷰입니다.2025년 10월 1일댓글 수 로딩 중
[논문리뷰] OpenGVL - Benchmarking Visual Temporal Progress for Data CurationViktor Petrenko이 arXiv에 게시한 'OpenGVL - Benchmarking Visual Temporal Progress for Data Curation' 논문에 대한 자세한 리뷰입니다.2025년 9월 24일댓글 수 로딩 중
[논문리뷰] Visual Programmability: A Guide for Code-as-Thought in Chart UnderstandingEthan Chern이 arXiv에 게시한 'Visual Programmability: A Guide for Code-as-Thought in Chart Understanding' 논문에 대한 자세한 리뷰입니다.2025년 9월 12일댓글 수 로딩 중
[논문리뷰] Focusing by Contrastive Attention: Enhancing VLMs' Visual ReasoningBaolong Bi이 arXiv에 게시한 'Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 9월 9일댓글 수 로딩 중
[논문리뷰] D-HUMOR: Dark Humor Understanding via Multimodal Open-ended ReasoningDhanvin Sanjay Namboodiri이 arXiv에 게시한 'D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning' 논문에 대한 자세한 리뷰입니다.2025년 9월 9일댓글 수 로딩 중
[논문리뷰] Robix: A Unified Model for Robot Interaction, Reasoning and PlanningZixuan Wang이 arXiv에 게시한 'Robix: A Unified Model for Robot Interaction, Reasoning and Planning' 논문에 대한 자세한 리뷰입니다.2025년 9월 4일댓글 수 로딩 중
[논문리뷰] LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy ModelJianwei Yang이 arXiv에 게시한 'LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model' 논문에 대한 자세한 리뷰입니다.2025년 9월 3일댓글 수 로딩 중
[논문리뷰] IAG: Input-aware Backdoor Attack on VLMs for Visual GroundingDi Zhang이 arXiv에 게시한 'IAG: Input-aware Backdoor Attack on VLMs for Visual Grounding' 논문에 대한 자세한 리뷰입니다.2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Adapting Vision-Language Models Without Labels: A Comprehensive SurveyEleni Chatzi이 arXiv에 게시한 'Adapting Vision-Language Models Without Labels: A Comprehensive Survey' 논문에 대한 자세한 리뷰입니다.2025년 8월 11일댓글 수 로딩 중
[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference ScoreHongsheng Li이 arXiv에 게시한 'HPSv3: Towards Wide-Spectrum Human Preference Score' 논문에 대한 자세한 리뷰입니다.2025년 8월 7일댓글 수 로딩 중