[논문리뷰] LIMMT: Less is More for Motion Tracking본 논문은 휴머노이드 모션 트래킹 학습에서 무분별한 데이터 확장(Data Scaling)이 오히려 성능 저하를 초래한다는 문제점을 지적합니다.#Review#Motion Tracking#Humanoid Robot#Data-Centric AI#Physics-based Simulation#Imitation Learning#Data Curation2026년 6월 7일댓글 수 로딩 중
[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models본 논문은 LLaMA-Factory의 모델 관리 및 최적화 기능을 보존하면서, 데이터 최적화 전략을 모듈형으로 통합한 DataFlex를 제안합니다. DataFlex는 7개의 데이터 선택, 2개의 데이터 혼합, 1개의 재가중치 알고리즘을 통합하여 단일 인터페이스 하에서 연구 및 실행할 수 있도록 설계되었습니다 .#Review#Data-Centric AI#Large Language Models#Dynamic Training#Data Selection#Data Mixture#Data Reweighting#LLaMA-Factory2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training금융 도메인 LLM 배포의 어려움(밀도 높은 전문 용어, 엄격한 수치 추론, 낮은 오류 허용치)을 해결하고, 특히 데이터 품질 과 훈련 데이터의 난이도/검증 가능성 프로필 이 특수 수직 도메인에서의 LLM 성능에 미치는 영향을 체계적으로 이해하는 것을 목표로 합니다.#Review#Financial LLMs#Data-Centric AI#Distillation#Chain-of-Thought (CoT)#Reinforcement Learning (RL)#Supervised Fine-Tuning (SFT)#Difficulty-Aware Training#Data Quality2026년 3월 9일댓글 수 로딩 중
[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.#Review#LLM Data Preparation#Workflow Automation#Data-Centric AI#Synthetic Data#Multi-Agent System#Framework#Reproducibility2025년 12월 22일댓글 수 로딩 중