[논문리뷰] CM-EVS: Sparse Panoramic RGB-D-Pose Data for Complete Scene Coverage본 논문은 기존 3D 자산 데이터셋들이 파노라마 모델 학습을 위한 효과적인 '관측 레이어(Observation layer)'를 정의하지 못하고 있다는 문제점을 지적합니다.#Review#Panoramic#RGB-D-Pose#Viewpoint Curation#Submodular Maximization#Scene Coverage#Dataset2026년 5월 17일댓글 수 로딩 중
[논문리뷰] WildRelight: A Real-World Benchmark and Physics-Guided Adaptation for Single-Image Relighting본 논문은 최신 생성형 모델 기반의 싱글 이미지 리라이팅 기법들이 합성 데이터셋에서는 우수한 성능을 보이지만, 실제 환경(in-the-wild)에서의 성능은 크게 검증되지 않았다는 문제 의식에서 출발한다.#Review#Single-Image Relighting#Dataset#Inverse Rendering#Diffusion Posterior Sampling#Test-Time Adaptation#Sim-to-Real2026년 5월 12일댓글 수 로딩 중
[llm-compressor] Dataset Calibration: c4/wikitext/ultrachat 로더datasets 디렉토리와 transformers/data 디렉토리가 캘리브레이션 데이터셋을 로딩하고 토크나이즈하는 구조 분석#llm-compressor#Dataset#Calibration2026년 4월 13일댓글 수 로딩 중
[논문리뷰] FIT: A Large-Scale Dataset for Fit-Aware Virtual Try-On본 논문은 기존 가상 착용(VTO) 기술이 의류의 외형 재현에는 뛰어나지만, 사용자의 체형이나 의류의 실제 사이즈를 반영한 '핏(fit)'을 정확히 표현하지 못한다는 핵심 문제 의식을 제기합니다.#Review#Virtual Try-On#Diffusion Model#Sim2Real#Dataset#Fit-Awareness#Physics Simulation2026년 4월 9일댓글 수 로딩 중
[논문리뷰] SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing본 논문은 공간 편집 능력을 확장하기 위해 체계적인 데이터 생성 엔진인 SpatialEdit-500k와 기하학적 정밀성을 평가하는 SpatialEdit-Bench를 제안한다. SpatialEdit-500k는 Blender를 사용하여 다양한 객체와 장면에서 카메라 궤적과 객체 변환을 포함한 50만 개의 쌍(paired) 데이터를 생성하여 학습을 지원한다 .#Review#Image Spatial Editing#Benchmark#Dataset#Geometry-Aware Evaluation#Camera Manipulation#Object Manipulation#Multimodal Large Models2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Ghost-FWL: A Large-Scale Full-Waveform LiDAR Dataset for Ghost Detection and Removal최근 모바일 LiDAR 시스템의 고감도화는 거리 측정 범위는 넓혔으나, 유리나 반사면으로 인한 Ghost Points 발생을 증가시켜 SLAM이나 3D 객체 인식의 정확도를 심각하게 떨어뜨리고 있습니다.#Review#Full-Waveform LiDAR#Ghost Removal#Masked Autoencoder#Mobile LiDAR#Dataset#Representation Learning2026년 3월 31일댓글 수 로딩 중
[논문리뷰] WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG기존 비디오 월드 모델들은 액션에 조건화된 역학(action-conditioned dynamics)을 학습하는 데 어려움을 겪고 있는데, 이는 현재 데이터셋이 요구 사항을 충족하지 못하기 때문입니다.#Review#World Modeling#Action-Conditioned Generation#Dataset#Generative ARPG#Explicit State Annotation#Video Generation#Long-Horizon Consistency2026년 3월 24일댓글 수 로딩 중
[논문리뷰] Video-Based Reward Modeling for Computer-Use AgentsComputer-use agents ( CUAs )는 일반적인 컴퓨터 자동화 분야에서 유망한 패러다임으로 부상하고 있지만, 에이전트 trajectory가 사용자 지침을 진정으로 이행하는지 여부를 평가하는 것은 여전히 어려운 과제로 남아 있습니다.#Review#Reward Modeling#Computer-Use Agents#Execution Video#Spatiotemporal Token Pruning#Dataset#Task Success2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports본 논문은 Vision-Language Model (VLM) 의 공간 지능을 스포츠 시나리오에서 벤치마킹하고 발전시키는 것을 목표로 합니다.#Review#Spatial Intelligence#Vision-Language Models#Sports Analytics#3D Reconstruction#Dataset#Benchmark#Racket Sports#Human-Centric AI2026년 3월 10일댓글 수 로딩 중
[논문리뷰] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens이 논문은 편집 용이성, 플랫폼 호환성, 해상도 독립성이 부족한 기존 래스터 비디오 애니메이션 생성 방식의 한계를 극복하고자 합니다.#Review#Vector Animation Generation#Lottie#Multimodal Instructions#Tokenizer#Vision-Language Models#Generative AI#Dataset2026년 3월 2일댓글 수 로딩 중
[논문리뷰] GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics기존 VLLM 기반 지리 위치 추정(geolocation) 모델이 AI 생성 CoT 데이터의 불완전성, 비합리적인 학습 전략, 지역적 편향, 그리고 미세한 위치 주석 부족으로 인해 겪는 한계를 해결하고자 합니다.#Review#Geolocation#Reinforcement Learning#Vision-Language Models#Chain-of-Thought#Geospatial AI#Dataset#Reward Function2026년 2월 15일댓글 수 로딩 중
[논문리뷰] HY3D-Bench: Generation of 3D Assets3D 콘텐츠 생성 분야의 데이터 처리 병목 현상 을 해결하고, 고품질 3D 콘텐츠 생성을 위한 통합적이고 표준화된 오픈소스 생태계 인 HY3D-Bench 를 구축하는 것이 목표입니다. 이는 3D 생성 모델의 훈련 및 평가를 위한 견고한 기반을 제공하여 연구 발전을 가속화하고자 합니다.#Review#3D Generation#Dataset#Benchmark#AIGC#Watertight Mesh#Part-level Decomposition#Foundation Model#Robotics2026년 2월 4일댓글 수 로딩 중
[논문리뷰] MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods본 논문은 고품질 추론 데이터의 부족으로 인해 독점 시스템에 비해 뒤처지는 오픈소스 멀티모달 모델의 한계를 극복하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Data-centric AI#Chain-of-Thought#Large Language Models#Visual Question Answering#STEM Reasoning#Dataset#Fine-tuning2026년 1월 29일댓글 수 로딩 중
[논문리뷰] EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing논문은 대규모 움직임, 빈번한 손-객체 상호작용 등 독특한 도전 과제를 가진 자기중심적(egocentric) 비디오 편집 을 위한 포괄적인 생태계를 구축하는 것을 목표로 합니다.#Review#Egocentric Video Editing#Real-Time Streaming#Augmented Reality#Video Generation#Dataset#Benchmark#Diffusion Models#Distillation2025년 12월 8일댓글 수 로딩 중
[논문리뷰] CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios본 논문은 기존 V2V 협력 인지 데이터셋이 주로 일반적인 교통 시나리오에 초점을 맞추어 Complex Adverse Traffic Scenarios (CATS) 하에서의 협력 인지 연구에 한계가 있음을 지적합니다.#Review#Cooperative Perception#Vehicle-to-Vehicle (V2V)#Autonomous Driving#Dataset#Adverse Traffic Scenarios#Sensor Fusion#Temporal Alignment#3D Bounding Box Annotation2025년 11월 16일댓글 수 로딩 중
[논문리뷰] CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis본 논문은 AI/ML 논문 내 인용 문맥에서 재현성(reproducibility) 지향 감성을 식별하기 위한 CC30k 데이터셋 을 구축하는 것을 목표로 합니다. 이는 계산적 재현성 연구를 위한 자원 부족 문제를 해결하고, 대규모 언어 모델(LLM)이 재현성 관련 감성을 효과적으로 예측하도록 훈련하는 기반을 마련합니다.#Review#Citation Contexts#Reproducibility#Sentiment Analysis#Large Language Models#Crowdsourcing#Dataset#Machine Learning#Science of Science2025년 11월 13일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Humanoid Locomotion#Dataset#Motion Imitation#Physics-based Control#Motion Retargeting#Data Curation#Reinforcement Learning#Inverse Kinematics2025년 11월 9일댓글 수 로딩 중
[논문리뷰] OpenGPT-4o-Image: A Comprehensive Dataset for Advanced Image Generation and Editing본 연구는 기존 데이터셋의 한계, 특히 실제 적용에 필요한 체계적인 구조와 난이도 높은 시나리오의 부족으로 인해 이미지 생성 및 편집을 위한 통합 멀티모달 모델의 성능이 제약받는 문제를 해결하고자 합니다.#Review#Image Generation#Image Editing#Multimodal AI#Dataset#Instruction Following#Taxonomy#GPT-402025년 9월 30일댓글 수 로딩 중
[논문리뷰] MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning로봇 조작 태스크를 위한 현실적이고 태스크 관련성이 높은 3D 탁상 장면(tabletop scene)을 자동으로 생성하는 것을 목표로 합니다. 기존 수동 또는 무작위 장면 생성 방식의 비효율성과 낮은 현실성을 극복하고, 고수준의 태스크 지시와 3D 장면 레이아웃 간의 큰 격차를 해소하고자 합니다.#Review#3D Scene Generation#Robotic Manipulation#Large Language Models#Spatial Reasoning#Dataset#Direct Preference Optimization#Tabletop Scene2025년 9월 29일댓글 수 로딩 중
[논문리뷰] MultiEdit: Advancing Instruction-based Image Editing on Diverse and Challenging Tasks본 연구는 기존 지시 기반 이미지 편집(IBIE) 방법론의 한계, 특히 제한된 데이터셋 다양성과 품질로 인한 복잡한 편집 태스크에서의 성능 저하 문제를 해결하고자 합니다.#Review#Instruction-based Image Editing#Dataset#Multi-modal LLM#Image Generation#Style Transfer#Multi-task Learning#Fine-tuning2025년 9월 19일댓글 수 로딩 중
[논문리뷰] CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China중국 내 소수 언어(티베트어, 위구르어, 몽골어)의 헤드라인 생성 을 위한 공개 데이터셋 및 벤치마크 부재 문제를 해결하고자 합니다. 이들 언어는 고유한 문자 체계와 자원 부족으로 인해 NLP 연구에서 소외되어 왔으며, 본 연구는 고품질 데이터셋을 제공하여 해당 분야의 발전을 촉진하는 것을 목표로 합니다.#Review#Headline Generation#Minority Languages#Low-Resource NLP#Dataset#Benchmark#Natural Language Generation#Chinese Minority Languages2025년 9월 15일댓글 수 로딩 중
[논문리뷰] MOSAIC: Multi-Subject Personalized Generation via Correspondence-Aware Alignment and Disentanglement이 논문은 다중 피사체 개인화 이미지 생성 시 발생하는 정체성 혼합(identity blending) 및 속성 유출(attribute leakage) 문제를 해결하는 것을 목표로 합니다.#Review#Multi-Subject Generation#Personalized Image Synthesis#Semantic Correspondence#Attention Disentanglement#Diffusion Models#Identity Preservation#Dataset2025년 9월 4일댓글 수 로딩 중
[논문리뷰] MultiRef: Controllable Image Generation with Multiple Visual References이 연구는 텍스트 프롬프트나 단일 이미지 참조에 의존하는 기존 이미지 생성 모델의 한계를 극복하고, 다중 시각 참조(multiple visual references)를 활용한 제어 가능한 이미지 생성 이라는 새로운 문제에 초점을 맞춥니다.#Review#Controllable Image Generation#Multi-modal Generation#Visual References#Image-to-Image#Benchmark#Dataset#MLLM-as-a-Judge2025년 8월 20일댓글 수 로딩 중
[논문리뷰] 4DNeX: Feed-Forward 4D Generative Modeling Made Easy본 논문은 단일 이미지로부터 4D(동적 3D) 장면 표현을 효율적으로 생성하는 피드포워드 프레임워크 인 4DNeX 를 제안합니다.#Review#4D Generation#Dynamic 3D#Generative Models#Diffusion Models#Single Image Input#Video Synthesis#Point Clouds#Dataset2025년 8월 19일댓글 수 로딩 중
[논문리뷰] MathReal: We Keep It Real! A Real Scene Benchmark for Evaluating Math Reasoning in Multimodal Large Language Models기존 MLLM 수학 추론 벤치마크들이 대부분 깨끗하거나 전처리된 이미지를 사용하는 한계를 극복하고자 합니다.#Review#Multimodal Large Language Models (MLLMs)#Math Reasoning#Real-World Benchmark#Visual Perception#Robustness#K-12 Education#Dataset2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation본 논문은 GPT-4o 로 생성된 합성 이미지 데이터를 활용하여 오픈소스 이미지 생성 모델이 겪는 성능 격차를 해소하는 것을 목표로 합니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Matrix-3D: Omnidirectional Explorable 3D World Generation본 논문은 단일 이미지 또는 텍스트 프롬프트로부터 전방위 탐색 가능한 3D 세계 를 생성하는 것을 목표로 합니다. 기존 방식의 좁은 시야각, 불일치성 및 제한적인 데이터셋 문제를 해결하여, 고품질의 기하학적으로 일관된 3D 환경을 넓은 범위로 생성하고자 합니다.#Review#3D World Generation#Panoramic Video Generation#3D Reconstruction#Diffusion Models#Gaussian Splatting#Dataset#Camera Control2025년 8월 13일댓글 수 로딩 중
[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.#Review#Video Object Segmentation#Dataset#Complex Scenes#Benchmark#Object Tracking#Computer Vision#Dataset Challenges2025년 8월 8일댓글 수 로딩 중
[논문리뷰] HPSv3: Towards Wide-Spectrum Human Preference Score본 논문은 기존 텍스트-이미지 생성 모델 평가를 위한 인간 중심 지표들이 제한적인 데이터 커버리지 , 불완전한 특징 추출 , 비효율적인 손실 함수 로 인해 인간의 선호도와 충분히 정렬되지 못하는 문제를 해결하는 것을 목표로 합니다. 이는 고급 생성 모델의 평가와 실제 인간 인식과의 일치성을 저해합니다.#Review#Human Preference Score#Text-to-Image Generation#Image Evaluation#Vision-Language Models (VLMs)#Uncertainty-Aware Ranking Loss#Dataset#Iterative Refinement#Chain-of-Thought2025년 8월 7일댓글 수 로딩 중
[논문리뷰] Multi-human Interactive Talking Dataset기존 단일 화자 또는 얼굴 기반의 오디오-구동 비디오 생성 모델의 한계를 극복하고, 다중 인간 상호작용 을 현실적으로 모델링하는 새로운 과제인 다중 인간 대화 비디오 생성(Multi-Human Talking Video Generation) 을 정의하는 것을 목표로 합니다.#Review#Multi-human Video Generation#Interactive Talking#Dataset#Audio-driven Animation#Pose Control#Speech Interaction#Diffusion Models2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Omni-Reward: Towards Generalist Omni-Modal Reward Modeling with Free-Form Preferences본 논문은 기존 보상 모델(RMs)의 두 가지 주요 한계, 즉 모달리티 불균형(Modality Imbalance) (텍스트 및 이미지 외 모달리티 지원 부족)과 선호도 경직성(Preference Rigidity) (고정된 이진 선호 쌍으로는 복잡하고 개인화된 선호도 포착 불가)을 해결하고자 합니다.#Review#Reward Modeling#Multimodal AI#Human Preferences#RLHF#Generalist AI#Benchmark#Dataset#Free-Form Preferences2025년 10월 28일댓글 수 로딩 중
[논문리뷰] MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning본 논문은 대규모 언어 모델(LLM)이 시각적 보조 자료에 본질적으로 의존하는 기하학 등 수학적 문제에서 겪는 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Visual Chain-of-Thought (VCoT)#Large Multimodal Models (LMMs)#Geometric Reasoning#Diagram Generation#Dataset#Benchmark2025년 10월 17일댓글 수 로딩 중
[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.#Review#Spatial Reasoning#Multi-Scale Vision#MLLM#Dataset#Scale Experts#Reinforcement Learning#Computer Vision#Robotics2025년 10월 13일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중
[논문리뷰] NuRisk: A Visual Question Answering Dataset for Agent-Level Risk Assessment in Autonomous Driving본 논문은 자율주행 시나리오에서 기존 Vision Language Models (VLMs)이 정성적 판단에 그치고 정량적 시공간 추론 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Visual Question Answering (VQA)#Autonomous Driving#Risk Assessment#Spatio-Temporal Reasoning#Large Vision Models (VLMs)#Dataset#Bird-Eye-View (BEV)#Fine-tuning2025년 10월 6일댓글 수 로딩 중
[논문리뷰] RIR-Mega: a large-scale simulated room impulse response dataset for machine learning and room acoustics modeling본 논문은 반향음 제거, 강건한 음성 인식, 음원 위치 추정, 음향 환경 추정 등 다양한 AI/ML 태스크를 위한 대규모 시뮬레이션된 Room Impulse Response (RIR) 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다.#Review#Room Impulse Response#Dataset#Room Acoustics#Machine Learning#Dereverberation#Speech Recognition#Simulation#Hugging Face2025년 10월 23일댓글 수 로딩 중
[논문리뷰] Scaling Instruction-Based Video Editing with a High-Quality Synthetic Dataset지시 기반 비디오 편집의 발전을 저해하는 대규모 고품질 학습 데이터의 부족 문제 를 해결하는 것이 목표입니다. 기존 데이터 생성 파이프라인의 제한된 확장성, 낮은 품질, 일관성 부족 등의 한계를 극복하고, 다양한 편집 작업에 대한 정확하고 일관된 편집 능력을 갖춘 모델 훈련을 위한 데이터셋과 방법론을 제시합니다.#Review#Video Editing#Instruction-Based Editing#Synthetic Data Generation#Dataset#Curriculum Learning#Diffusion Models#Vision-Language Models2025년 10월 20일댓글 수 로딩 중