[논문리뷰] Qwen3-VL Technical ReportarXiv에 게시된 'Qwen3-VL Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multimodal Reasoning#Long-Context#Interleaved Data#Mixture-of-Experts#DeepStack#Agentic AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] PretrainZero: Reinforcement Active PretrainingGuoqi Li이 arXiv에 게시한 'PretrainZero: Reinforcement Active Pretraining' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Active Learning#Pretraining#Large Language Models#Self-Supervised Learning#Masked Language Modeling#Generalization#Reasoning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] OneThinker: All-in-one Reasoning Model for Image and VideoKaixuan Fan이 arXiv에 게시한 'OneThinker: All-in-one Reasoning Model for Image and Video' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal LLMs#Reinforcement Learning#Visual Reasoning#Generalist Model#Image Understanding#Video Understanding#Multitask Learning#EMA-GRPO2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Jina-VLM: Small Multilingual Vision Language ModelarXiv에 게시된 'Jina-VLM: Small Multilingual Vision Language Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model#Multilingual VLM#Small VLM#Visual Question Answering#Attention Pooling#Image Tiling#SigLIP#Qwen2025년 12월 3일댓글 수 로딩 중
[논문리뷰] In-Context Representation Hijackingyossig이 arXiv에 게시한 'In-Context Representation Hijacking' 논문에 대한 자세한 리뷰입니다.#Review#LLM Jailbreak#In-Context Learning#Representation Hijacking#Mechanistic Interpretability#LLM Safety#Adversarial Attack#Semantic Shift2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Flowing Backwards: Improving Normalizing Flows via Reverse Representation AlignmentarXiv에 게시된 'Flowing Backwards: Improving Normalizing Flows via Reverse Representation Alignment' 논문에 대한 자세한 리뷰입니다.#Review#Normalizing Flows#Representation Alignment#Generative Models#TARFlow#Image Generation#Classification#Training Acceleration#Reverse Pass2025년 12월 3일댓글 수 로딩 중
[논문리뷰] CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image GenerationYi Yao이 arXiv에 게시한 'CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multi-step Image Generation#Recipe Illustration#Diffusion Models#Consistent Generation#Regional Control#Positional Encoding#Ingredient Consistency#Procedural Content Generation2025년 12월 3일댓글 수 로딩 중
[논문리뷰] AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption PairsTosho Hirasawa이 arXiv에 게시한 'AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs' 논문에 대한 자세한 리뷰입니다.#Review#Image-Text Alignment#Multimodal Benchmarking#Hallucination Detection#Vision-Language Models#Synthetic Data Generation#Fine-Grained Analysis#Captioning2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Adversarial Confusion Attack: Disrupting Multimodal Large Language ModelsArtur Janicki이 arXiv에 게시한 'Adversarial Confusion Attack: Disrupting Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Adversarial Attack#Multimodal Large Language Models (MLLMs)#Entropy Maximization#Confusion Attack#Black-box Transfer#PGD#AI Agent Safety2025년 12월 3일댓글 수 로딩 중
[논문리뷰] YingVideo-MV: Music-Driven Multi-Stage Video GenerationChaofan Ding이 arXiv에 게시한 'YingVideo-MV: Music-Driven Multi-Stage Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Music-Driven Video Generation#Diffusion Models#Multi-Stage Framework#Camera Control#Lip-Sync#Temporal Coherence#Video Diffusion Transformer2025년 12월 2일댓글 수 로딩 중
[논문리뷰] WorldMM: Dynamic Multimodal Memory Agent for Long Video ReasoningarXiv에 게시된 'WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Long Video Reasoning#Multimodal Memory#Adaptive Retrieval#Video Large Language Models#Knowledge Graph#Multiscale Temporal Reasoning#Episodic Memory#Semantic Memory2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video GenerationYu Ning이 arXiv에 게시한 'Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Spatial Reasoning#Visuospatial Intelligence#Diffusion Models#Context-Guided Generation#Scene Navigation#Object Grounding#Out-of-Domain Generalization2025년 12월 2일댓글 수 로딩 중
[논문리뷰] ViSAudio: End-to-End Video-Driven Binaural Spatial Audio GenerationarXiv에 게시된 'ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation' 논문에 대한 자세한 리뷰입니다.#Review#Binaural Audio Generation#Spatial Audio#Video-Driven#End-to-End#Conditional Flow Matching#Multimodal AI#Deep Learning#Audio-Visual Synthesis2025년 12월 2일댓글 수 로딩 중
[논문리뷰] The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language ModelsarXiv에 게시된 'The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Analogical Reasoning#Large Language Models#Mechanistic Interpretability#Proportional Analogies#Story Analogies#Structural Alignment#Attention Knockout#Patchscopes2025년 12월 2일댓글 수 로딩 중
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table RecognitionZichen Wen이 arXiv에 게시한 'TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition' 논문에 대한 자세한 리뷰입니다.#Review#Table Recognition#Self-supervised Learning#Vision-Language Models#Reinforcement Learning#Question Answering#Data Augmentation#GRPO2025년 12월 2일댓글 수 로딩 중
[논문리뷰] SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal OverheadarXiv에 게시된 'SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Lightweight Models#Spatiotemporal Dynamics#4D Features#Masked Autoencoding#Robotics#Edge AI2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearcharXiv에 게시된 'Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Agentic Models#Interleaved Reasoning#Image Manipulation#DeepSearch#Supervised Fine-tuning (SFT)#Tool-Augmented LLM2025년 12월 2일댓글 수 로딩 중
[논문리뷰] SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social WorldsXuhong He이 arXiv에 게시한 'SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Agents#Realistic Simulator#Unreal Engine 5#LLM/VLM Agents#Procedural Generation#Multi-Agent Systems#Physical Simulation#Social Interaction2025년 12월 2일댓글 수 로딩 중
[논문리뷰] SimScale: Learning to Drive via Real-World Simulation at ScalearXiv에 게시된 'SimScale: Learning to Drive via Real-World Simulation at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Autonomous Driving#Simulation#Neural Rendering#3D Gaussian Splatting#Sim-to-Real#Data Scaling#End-to-End Planning#Pseudo-Expert2025년 12월 2일댓글 수 로딩 중
[논문리뷰] Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning GeneralizationarXiv에 게시된 'Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization' 논문에 대한 자세한 리뷰입니다.#Review#Chain-of-Thought (CoT)#Vision-Language Models (VLMs)#Visual Reasoning#Generalization#Supervised Fine-Tuning (SFT)#Reinforcement Learning (RL)#Grounding CoT#Maze Solving2025년 12월 2일댓글 수 로딩 중