#Data Engine

10개의 포스트

[논문리뷰] PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training

본 연구는 고성능 0.9B 파라미터 모델인 PaddleOCR-VL-1.5의 잔여 오류를 해결하여 성능을 극대화하고자 합니다 . 저자들은 단순히 훈련 데이터를 늘리는 것만으로는 긴 꼬리(long-tail) 분포의 문서 레이아웃, 복잡한 테이블, 희귀 스크립트 등에서 발생하는 오류를 근본적으로 해결할 수 없음을 관찰했습니다.

#Review #Document Parsing #Vision-Language Model #Under-Optimized Region #Progressive Post-Training #Data Engine #GRPO

2026년 6월 2일

[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.

#Review #TerminalWorld #Autonomous Agents #Benchmark #CLI #Data Engine #Reverse-Engineering #Docker

2026년 5월 21일

[논문리뷰] PhysBrain 1.0 Technical Report

본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Embodied Intelligence #Physical Commonsense #Egocentric Video #Data Engine #VLA Adaptation

2026년 5월 17일

[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

본 논문은 기존 MLLM이 언어적 능력에 비해 공간 이해 능력(거리 측정, 다중 뷰 일관성 등)이 현저히 떨어지는 'Spatial Myopia' 문제를 해결하고자 한다. 기존 연구들은 고정된 데이터셋만을 배포할 뿐, 공간 데이터를 생성하는 엔진 자체를 비공개로 운영하여 데이터의 확장성과 재현성을 저해하고 있다.

#Review #Spatial Intelligence #Data Engine #3D Bounding Boxes #Multimodal Large Language Models #Data Scaling #3D Lifting

2026년 4월 9일

[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale

본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.

#Review #Document Parsing #Data-Centric AI #Vision-Language Model #Progressive Training #Data Engine

2026년 4월 6일

[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery

본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.

#Review #Human Mesh Recovery (HMR)#Full-Body Pose Estimation #Promptable Models #Momentum Human Rig (MHR)#Data Engine #Encoder-Decoder #Robustness #3D Vision

2026년 2월 18일

[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control

본 논문은 기존 비디오 월드 모델들이 카메라 및 다중 객체 모션에 대한 통합적이고 정밀한 제어에 어려움을 겪는 문제를 해결하고자 합니다.

#Review #Video World Model #4D Geometric Control #Gaussian Trajectories #Video Generation #Diffusion Models #Camera Control #Object Motion Control #Data Engine

2026년 1월 8일

[논문리뷰] SAM 3: Segment Anything with Concepts

이 논문은 기존 SAM(Segment Anything Model) 의 한계, 즉 단일 객체 분할(PVS)을 넘어 이미지와 비디오에서 개념(Concept) 을 기반으로 모든 객체 인스턴스를 탐지, 분할 및 추적하는 것을 목표로 합니다.

#Review #Segment Anything Model #Open-Vocabulary Segmentation #Multimodal Foundation Model #Instance Segmentation #Video Object Tracking #Prompt Engineering #Data Engine #Human-in-the-loop

2025년 11월 23일

[논문리뷰] SAM 3D: 3Dfy Anything in Images

본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.

#Review #3D Reconstruction #Generative Models #Single Image 3D #Object Reconstruction #Scene Understanding #Data Engine #Model-in-the-Loop #Human Preference

2025년 11월 20일

[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing

본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.

#Review #Document Parsing #Vision-Language Model #High-Resolution #Two-Stage Inference #Layout Analysis #Content Recognition #Data Engine #Computational Efficiency

2025년 9월 29일