[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .#Review#Image Spatial Editing#Benchmark#Dataset#Geometry-Aware Evaluation#Camera Manipulation#Object Manipulation#Multimodal Large Models2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and RemovalTakahiro Kado이 arXiv에 게시한 'Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal' 논문에 대한 자세한 리뷰입니다.#Review#Full-Waveform LiDAR#Ghost Removal#Masked Autoencoder#Mobile LiDAR#Dataset#Representation Learning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPGarXiv에 게시된 'WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG' 논문에 대한 자세한 리뷰입니다.#Review#World Modeling#Action-Conditioned Generation#Dataset#Generative ARPG#Explicit State Annotation#Video Generation#Long-Horizon Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Video-Based Reward Modeling for Computer-Use AgentsarXiv에 게시된 'Video-Based Reward Modeling for Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Computer-Use Agents#Execution Video#Spatiotemporal Token Pruning#Dataset#Task Success2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in SportsYuqing Shao이 arXiv에 게시한 'Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Intelligence#Vision-Language Models#Sports Analytics#3D Reconstruction#Dataset#Benchmark#Racket Sports#Human-Centric AI2026년 3월 10일댓글 수 로딩 중
[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie TokensarXiv에 게시된 'OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens' 논문에 대한 자세한 리뷰입니다.#Review#Vector Animation Generation#Lottie#Multimodal Instructions#Tokenizer#Vision-Language Models#Generative AI#Dataset2026년 3월 2일댓글 수 로딩 중
[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic CharacteristicsMingMing Cheng이 arXiv에 게시한 'GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics' 논문에 대한 자세한 리뷰입니다.#Review#Geolocation#Reinforcement Learning#Vision-Language Models#Chain-of-Thought#Geospatial AI#Dataset#Reward Function2026년 2월 15일댓글 수 로딩 중
[논문리뷰] HY3D-Bench: Generation of 3D AssetsarXiv에 게시된 'HY3D-Bench: Generation of 3D Assets' 논문에 대한 자세한 리뷰입니다.#Review#3D Generation#Dataset#Benchmark#AIGC#Watertight Mesh#Part-level Decomposition#Foundation Model#Robotics2026년 2월 4일댓글 수 로딩 중
[논문리뷰] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric MethodsarXiv에 게시된 'MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Data-centric AI#Chain-of-Thought#Large Language Models#Visual Question Answering#STEM Reasoning#Dataset#Fine-tuning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video EditingarXiv에 게시된 'EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing' 논문에 대한 자세한 리뷰입니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic ScenariosJuyoung Oh이 arXiv에 게시한 'CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios' 논문에 대한 자세한 리뷰입니다.#Review#Cooperative Perception#Vehicle-to-Vehicle (V2V)#Autonomous Driving#Dataset#Adverse Traffic Scenarios#Sensor Fusion#Temporal Alignment#3D Bounding Box Annotation2025년 11월 16일댓글 수 로딩 중
[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment AnalysisJian Wu이 arXiv에 게시한 'CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis' 논문에 대한 자세한 리뷰입니다.#Review#Citation Contexts#Reproducibility#Sentiment Analysis#Large Language Models#Crowdsourcing#Dataset#Machine Learning#Science of Science2025년 11월 13일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using AgentsarXiv에 게시된 'GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion DatasetarXiv에 게시된 'PHUMA: Physically-Grounded Humanoid Locomotion Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Humanoid Locomotion#Dataset#Motion Imitation#Physics-based Control#Motion Retargeting#Data Curation#Reinforcement Learning#Inverse Kinematics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form PreferencesarXiv에 게시된 'Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences' 논문에 대한 자세한 리뷰입니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modelingMandip Goswami이 arXiv에 게시한 'RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling' 논문에 대한 자세한 리뷰입니다.#Review#Room Impulse Response#Dataset#Room Acoustics#Machine Learning#Dereverberation#Speech Recognition#Simulation#Hugging Face2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic DatasetHao Ouyang이 arXiv에 게시한 'Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Video Editing#Instruction-Based Editing#Synthetic Data Generation#Dataset#Curriculum Learning#Diffusion Models#Vision-Language Models2025년 10월 20일댓글 수 로딩 중
[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical ReasoningKe Wang이 arXiv에 게시한 'MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Reasoning#Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning#Diagram Generation#Dataset#Benchmark2025년 10월 17일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to kmKaituo Feng이 arXiv에 게시한 'SpaceVista: All-Scale Visual Spatial Reasoning from mm to km' 논문에 대한 자세한 리뷰입니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k CorpusZhonghao Zhang이 arXiv에 게시한 'SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus' 논문에 대한 자세한 리뷰입니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous DrivingarXiv에 게시된 'NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving' 논문에 대한 자세한 리뷰입니다.#Review#Visual Question Answering (VQA)#Autonomous Driving#Risk Assessment#Spatio-Temporal Reasoning#Large Vision Models (VLMs)#Dataset#Bird-Eye-View (BEV)#Fine-tuning2025년 10월 6일댓글 수 로딩 중
[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and EditingHuanyu Zhang이 arXiv에 게시한 'OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing' 논문에 대한 자세한 리뷰입니다.#Review#Image Generation#Image Editing#Multimodal AI#Dataset#Instruction Following#Taxonomy#GPT-402025년 9월 30일댓글 수 로딩 중
[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial ReasoningWeipeng Zhong이 arXiv에 게시한 'MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Generation#Robotic Manipulation#Large Language Models#Spatial Reasoning#Dataset#Direct Preference Optimization#Tabletop Scene2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging TasksXijun Gu이 arXiv에 게시한 'MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks' 논문에 대한 자세한 리뷰입니다.#Review#Instruction-based Image Editing#Dataset#Multi-modal LLM#Image Generation#Style Transfer#Multi-task Learning#Fine-tuning2025년 9월 19일댓글 수 로딩 중
[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in ChinaXU Han이 arXiv에 게시한 'CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China' 논문에 대한 자세한 리뷰입니다.#Review#Headline Generation#Minority Languages#Low-Resource NLP#Dataset#Benchmark#Natural Language Generation#Chinese Minority Languages2025년 9월 15일댓글 수 로딩 중
[논문리뷰] MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and DisentanglementHualiang Wang이 arXiv에 게시한 'MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement' 논문에 대한 자세한 리뷰입니다.#Review#Multi-Subject Generation#Personalized Image Synthesis#Semantic Correspondence#Attention Disentanglement#Diffusion Models#Identity Preservation#Dataset2025년 9월 4일댓글 수 로딩 중
[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual ReferencesShiyun Lang이 arXiv에 게시한 'MultiRef: Controllable Image Generation with Multiple Visual References' 논문에 대한 자세한 리뷰입니다.#Review#Controllable Image Generation#Multi-modal Generation#Visual References#Image-to-Image#Benchmark#Dataset#MLLM-as-a-Judge2025년 8월 20일댓글 수 로딩 중
[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made EasyZeng Tao이 arXiv에 게시한 '4DNeX: Feed-Forward 4D Generative Modeling Made Easy' 논문에 대한 자세한 리뷰입니다.#Review#4D Generation#Dynamic 3D#Generative Models#Diffusion Models#Single Image Input#Video Synthesis#Point Clouds#Dataset2025년 8월 19일댓글 수 로딩 중
[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language ModelsZhihan Zhou이 arXiv에 게시한 'MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Models (MLLMs)#Math Reasoning#Real-World Benchmark#Visual Perception#Robustness#K-12 Education#Dataset2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image GenerationZhenghao Hu이 arXiv에 게시한 'Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation' 논문에 대한 자세한 리뷰입니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World GenerationYuqi Li이 arXiv에 게시한 'Matrix-3D: Omnidirectional Explorable 3D World Generation' 논문에 대한 자세한 리뷰입니다.#Review#3D World Generation#Panoramic Video Generation#3D Reconstruction#Diffusion Models#Gaussian Splatting#Dataset#Camera Control2025년 8월 13일댓글 수 로딩 중
[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex ScenesXudong Jiang이 arXiv에 게시한 'MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes' 논문에 대한 자세한 리뷰입니다.#Review#Video Object Segmentation#Dataset#Complex Scenes#Benchmark#Object Tracking#Computer Vision#Dataset Challenges2025년 8월 8일댓글 수 로딩 중
[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference ScoreHongsheng Li이 arXiv에 게시한 'HPSv3: Towards Wide-Spectrum Human Preference Score' 논문에 대한 자세한 리뷰입니다.#Review#Human Preference Score#Text-to-Image Generation#Image Evaluation#Vision-Language Models (VLMs)#Uncertainty-Aware Ranking Loss#Dataset#Iterative Refinement#Chain-of-Thought2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Multi-human Interactive Talking DatasetMike Zheng Shou이 arXiv에 게시한 'Multi-human Interactive Talking Dataset' 논문에 대한 자세한 리뷰입니다.#Review#Multi-human Video Generation#Interactive Talking#Dataset#Audio-driven Animation#Pose Control#Speech Interaction#Diffusion Models2025년 8월 6일댓글 수 로딩 중