[논문리뷰] MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous SourcesJianxun Cui이 arXiv에 게시한 'MetricAnything: Scaling Metric Depth Pretraining with Noisy Heterogeneous Sources' 논문에 대한 자세한 리뷰입니다.#Review#Metric Depth Estimation#Pretraining#Foundation Models#Sparse Prompts#Heterogeneous Data#Zero-Shot Learning#Multi-modal Learning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language ModelsYu-Lun Liu이 arXiv에 게시한 'Beyond Memorization: A Multi-Modal Ordinal Regression Benchmark to Expose Popularity Bias in Vision-Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Models (VLMs)#Popularity Bias#Ordinal Regression#Building Age Estimation#Multi-modal Learning#Benchmark Dataset#Explainable AI2025년 12월 24일댓글 수 로딩 중
[논문리뷰] An Anatomy of Vision-Language-Action Models: From Modules to Milestones and ChallengesarXiv에 게시된 'An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Robotics#Foundation Models#Multi-modal Learning#Reinforcement Learning#Sim-to-Real Transfer#Human-Robot Interaction2025년 12월 21일댓글 수 로딩 중
[논문리뷰] UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video GenerationarXiv에 게시된 'UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Multi-modal Learning#Multi-task Learning#Zero-shot Generalization#Diffusion Models#World Models#Video Understanding2025년 12월 8일댓글 수 로딩 중
[논문리뷰] RynnVLA-002: A Unified Vision-Language-Action and World ModelarXiv에 게시된 'RynnVLA-002: A Unified Vision-Language-Action and World Model' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA) Model#World Model#Robotics#Unified Framework#Multi-modal Learning#Action Generation#Attention Mask#Continuous Control2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal FrameworkarXiv에 게시된 'Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework' 논문에 대한 자세한 리뷰입니다.#Review#Extreme Multi-label Classification (XMC)#Large Language Models (LLMs)#Multi-modal Learning#Dual-decoder Learning#Vision Transformers#Contrastive Learning#Prompt Engineering2025년 11월 18일댓글 수 로딩 중
[논문리뷰] SciReasoner: Laying the Scientific Reasoning Ground Across DisciplinesJiabei Xiao이 arXiv에 게시한 'SciReasoner: Laying the Scientific Reasoning Ground Across Disciplines' 논문에 대한 자세한 리뷰입니다.#Review#Scientific Reasoning#Foundation Models#Multi-modal Learning#Cross-domain Generalization#Chain-of-Thought#Reinforcement Learning#Scientific Discovery#Molecular Design2025년 9월 26일댓글 수 로딩 중
[논문리뷰] PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI EraZihao Dongfang이 arXiv에 게시한 'PANORAMA: The Rise of Omnidirectional Vision in the Embodied AI Era' 논문에 대한 자세한 리뷰입니다.#Review#Omnidirectional Vision#Embodied AI#Panoramic Perception#Multi-modal Learning#Dataset Development#Robot Navigation#Spatial Reasoning#System Architecture2025년 9월 18일댓글 수 로딩 중
[논문리뷰] Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector DrawingsMeie Fang이 arXiv에 게시한 'Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings' 논문에 대한 자세한 리뷰입니다.#Review#CAD Generation#Vector Graphics#Sequence-to-Sequence Learning#Transformer Architecture#Engineering Drawings#Multi-modal Learning#Soft Target Loss#Dual Decoder2025년 9월 5일댓글 수 로딩 중
[논문리뷰] Collaborative Multi-Modal Coding for High-Quality 3D GenerationZiwei Liu이 arXiv에 게시한 'Collaborative Multi-Modal Coding for High-Quality 3D Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#Multi-modal Learning#Diffusion Models#Triplane Representation#Collaborative Coding#Image-to-3D#Latent Space2025년 8월 29일댓글 수 로딩 중
[논문리뷰] A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy GroundingJianke Zhu이 arXiv에 게시한 'A Coarse-to-Fine Approach to Multi-Modality 3D Occupancy Grounding' 논문에 대한 자세한 리뷰입니다.#Review#3D Occupancy Grounding#Multi-modal Learning#Natural Language Understanding#Autonomous Driving#Voxel-based Prediction#Benchmark Dataset#Coarse-to-Fine2025년 8월 7일댓글 수 로딩 중