[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.#Review#TerminalWorld#Autonomous Agents#Benchmark#CLI#Data Engine#Reverse-Engineering#Docker2026년 5월 21일댓글 수 로딩 중
[논문리뷰] PhysBrain 1.0 Technical Report본 논문은 기존 VLA 시스템이 의존하는 플랫폼 종속적인 로봇 궤적(Trajectory) 데이터 수집의 한계를 극복하고, 물리적 환경에 대한 근본적인 이해(Physical Commonsense)를 확보하는 것을 목표로 합니다.#Review#Vision-Language-Action Models#Embodied Intelligence#Physical Commonsense#Egocentric Video#Data Engine#VLA Adaptation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence본 논문은 기존 MLLM이 언어적 능력에 비해 공간 이해 능력(거리 측정, 다중 뷰 일관성 등)이 현저히 떨어지는 'Spatial Myopia' 문제를 해결하고자 한다. 기존 연구들은 고정된 데이터셋만을 배포할 뿐, 공간 데이터를 생성하는 엔진 자체를 비공개로 운영하여 데이터의 확장성과 재현성을 저해하고 있다.#Review#Spatial Intelligence#Data Engine#3D Bounding Boxes#Multimodal Large Language Models#Data Scaling#3D Lifting2026년 4월 9일댓글 수 로딩 중
[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] SAM 3D Body: Robust Full-Body Human Mesh Recovery본 연구는 단일 이미지로부터 강건한 전신 3D 인체 메시 복원(HMR) 을 목표로 하는 SAM 3D Body (3DB) 모델을 제안합니다. 특히, 도전적인 자세, 심각한 폐색, 그리고 흔치 않은 시점 등 다양한 실제 환경 조건에서 기존 HMR 모델의 낮은 견고성 및 부정확성을 개선하고자 합니다.#Review#Human Mesh Recovery (HMR)#Full-Body Pose Estimation#Promptable Models#Momentum Human Rig (MHR)#Data Engine#Encoder-Decoder#Robustness#3D Vision2026년 2월 18일댓글 수 로딩 중
[논문리뷰] VerseCrafter: Dynamic Realistic Video World Model with 4D Geometric Control본 논문은 기존 비디오 월드 모델들이 카메라 및 다중 객체 모션에 대한 통합적이고 정밀한 제어에 어려움을 겪는 문제를 해결하고자 합니다.#Review#Video World Model#4D Geometric Control#Gaussian Trajectories#Video Generation#Diffusion Models#Camera Control#Object Motion Control#Data Engine2026년 1월 8일댓글 수 로딩 중
[논문리뷰] SAM 3: Segment Anything with Concepts이 논문은 기존 SAM(Segment Anything Model) 의 한계, 즉 단일 객체 분할(PVS)을 넘어 이미지와 비디오에서 개념(Concept) 을 기반으로 모든 객체 인스턴스를 탐지, 분할 및 추적하는 것을 목표로 합니다.#Review#Segment Anything Model#Open-Vocabulary Segmentation#Multimodal Foundation Model#Instance Segmentation#Video Object Tracking#Prompt Engineering#Data Engine#Human-in-the-loop2025년 11월 23일댓글 수 로딩 중
[논문리뷰] SAM 3D: 3Dfy Anything in Images본 논문은 단일 이미지로부터 시각적으로 기반한 3D 객체 재구성을 위한 SAM 3D 라는 생성 모델을 제시합니다. 가려짐 과 장면 복잡성 이 흔한 자연 이미지에서 객체의 기하학적 형태, 텍스처, 레이아웃 을 예측하여 완전한 장면 재구성을 가능하게 하는 것을 목표로 합니다.#Review#3D Reconstruction#Generative Models#Single Image 3D#Object Reconstruction#Scene Understanding#Data Engine#Model-in-the-Loop#Human Preference2025년 11월 20일댓글 수 로딩 중
[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.#Review#Document Parsing#Vision-Language Model#High-Resolution#Two-Stage Inference#Layout Analysis#Content Recognition#Data Engine#Computational Efficiency2025년 9월 29일댓글 수 로딩 중