[논문리뷰] Scaling Spatial Intelligence with Multimodal Foundation ModelsarXiv에 게시된 'Scaling Spatial Intelligence with Multimodal Foundation Models' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Multimodal Foundation Models#Data Scaling#Perspective-taking#Visual Question Answering#Emergent Capabilities#Embodied AI#Benchmark Evaluation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SRPO: Self-Referential Policy Optimization for Vision-Language-Action ModelsarXiv에 게시된 'SRPO: Self-Referential Policy Optimization for Vision-Language-Action Models' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Vision-Language-Action Models#Reward Shaping#World Models#Self-Referential Learning#Robotics#Trajectory Optimization2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SAM2S: Segment Anything in Surgical Videos via Semantic Long-term TrackingarXiv에 게시된 'SAM2S: Segment Anything in Surgical Videos via Semantic Long-term Tracking' 논문에 대한 자세한 리뷰입니다.#Review#Surgical Video Segmentation#Interactive Video Object Segmentation#Long-term Tracking#Foundation Models#Domain Adaptation#Semantic Learning#Prompt-based Segmentation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] SAM 3D: 3Dfy Anything in ImagesarXiv에 게시된 'SAM 3D: 3Dfy Anything in Images' 논문에 대한 자세한 리뷰입니다.#Review#3D Reconstruction#Generative Models#Single Image 3D#Object Reconstruction#Scene Understanding#Data Engine#Model-in-the-Loop#Human Preference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] PartUV: Part-Based UV Unwrapping of 3D MeshesHao Su이 arXiv에 게시한 'PartUV: Part-Based UV Unwrapping of 3D Meshes' 논문에 대한 자세한 리뷰입니다.#Review#UV Unwrapping#3D Meshes#Part-Based Decomposition#Neural Fields#Geometric Heuristics#Parameterization#Texture Mapping2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMsarXiv에 게시된 'Nemotron Elastic: Towards Efficient Many-in-One Reasoning LLMs' 논문에 대한 자세한 리뷰입니다.#Review#LLM Compression#Elastic Networks#Knowledge Distillation#Hybrid Mamba-Attention#Reasoning LLMs#Multi-Budget Training#Zero-Shot Deployment2025년 11월 20일댓글 수 로딩 중
[논문리뷰] NaTex: Seamless Texture Generation as Latent Color DiffusionarXiv에 게시된 'NaTex: Seamless Texture Generation as Latent Color Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#3D Texture Generation#Latent Diffusion Model#Geometry-Aware VAE#Multi-Control DiT#Color Point Cloud#Texture Synthesis#3D Asset Creation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical ReportarXiv에 게시된 'MiMo-Embodied: X-Embodied Foundation Model Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language Model (VLM)#Embodied AI#Autonomous Driving#Foundation Model#Multimodal Learning#Task Planning#Affordance Prediction#Spatial Understanding#Reinforcement Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] First Frame Is the Place to Go for Video Content CustomizationarXiv에 게시된 'First Frame Is the Place to Go for Video Content Customization' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Content Customization#Few-shot Learning#LoRA#Vision-Language Models (VLMs)#First Frame Conditioning#Reference-based Generation2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Draft and Refine with Visual ExpertsarXiv에 게시된 'Draft and Refine with Visual Experts' 논문에 대한 자세한 리뷰입니다.#Review#Large Vision-Language Models (LVLMs)#Visual Grounding#Hallucination Mitigation#Agent Framework#Visual Question Answering (VQA)#Expert Coordination#Relevance Map#Multi-modal Reasoning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation DiversityarXiv에 게시된 'What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity' 논문에 대한 자세한 리뷰입니다.#Review#AI Research Agents#Ideation Diversity#MLE-bench#LLM Backbones#Agentic Scaffolds#Shannon Entropy#Machine Learning Engineering#Performance Metrics2025년 11월 19일댓글 수 로딩 중
[논문리뷰] VisPlay: Self-Evolving Vision-Language Models from ImagesarXiv에 게시된 'VisPlay: Self-Evolving Vision-Language Models from Images' 논문에 대한 자세한 리뷰입니다.#Review#Self-Evolving#Vision-Language Models#Reinforcement Learning#Self-Play#Unlabeled Data#Multimodal Reasoning#Group Relative Policy Optimization#Hallucination Mitigation2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving TasksYiran Peng이 arXiv에 게시한 'Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Video Models#Spatial Reasoning#Maze Solving#Video Generation#Benchmark#Supervised Fine-tuning#Test-Time Scaling#Multimodal Reasoning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Mixture of States: Routing Token-Level Dynamics for Multimodal GenerationarXiv에 게시된 'Mixture of States: Routing Token-Level Dynamics for Multimodal Generation' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Diffusion#Mixture of States (MoS)#Token-Level Routing#Dynamic Conditional Fusion#Text-to-Image Generation#Image Editing#Transformer Architecture2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Medal S: Spatio-Textual Prompt Model for Medical SegmentationTao Chen이 arXiv에 게시한 'Medal S: Spatio-Textual Prompt Model for Medical Segmentation' 논문에 대한 자세한 리뷰입니다.#Review#Medical Segmentation#Foundation Model#Spatio-Textual Prompts#3D Convolution#Multi-modal Imaging#Dynamic Resampling#Parallel Inference#Iterative Refinement2025년 11월 19일댓글 수 로딩 중
[논문리뷰] MHR: Momentum Human RigChris Twigg이 arXiv에 게시한 'MHR: Momentum Human Rig' 논문에 대한 자세한 리뷰입니다.#Review#Parametric Body Model#Human Animation#Character Rigging#Pose Correctives#Skeletal Decoupling#Computer Graphics#AR/VR2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Kandinsky 5.0: A Family of Foundation Models for Image and Video GenerationVladimir Arkhipkin이 arXiv에 게시한 'Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Video Generation#Diffusion Models#Flow Matching#Diffusion Transformer#NABLA#RLHF#Supervised Fine-tuning2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale DatasetarXiv에 게시된 'Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Medical Imaging#Chest X-ray#Lesion Segmentation#Vision-Language Models#Instruction Following#Data Generation#MIMIC-CXR2025년 11월 19일댓글 수 로딩 중
[논문리뷰] FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AIXinyu Yin이 arXiv에 게시한 'FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI' 논문에 대한 자세한 리뷰입니다.#Review#Embodied AI#Vision-and-Language Navigation (VLN)#LLM-driven Simulation#Human-Agent Interaction#Closed-Loop#Benchmark Dataset#Social Cognition2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and ChallengesAbhinaba Roy이 arXiv에 게시한 'Aligning Generative Music AI with Human Preferences: Methods and Challenges' 논문에 대한 자세한 리뷰입니다.#Review#Generative Music AI#Preference Alignment#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)#Inference-Time Optimization#Music Generation#Human-Computer Interaction2025년 11월 19일댓글 수 로딩 중