#Data Diversity

9개의 포스트

[논문리뷰] Vero: An Open RL Recipe for General Visual Reasoning

저자들은 6개 범주를 아우르는 600K 샘플의 Vero-600K를 구축하고, 태스크별로 세분화된 보상 함수를 적용하는 GSPO 기반의 단일 단계 RL 학습을 수행한다 . 데이터 정제 과정에서 모델 기반의 문항 필터링과 정답 정규화를 통해 학습 품질을 극대화하였다.

#Review #Vision-Language Models #Reinforcement Learning #Visual Reasoning #Multi-task Learning #Chain-of-Thought #Data Diversity #Reward Engineering

2026년 4월 6일

[논문리뷰] RoboCurate: Harnessing Diversity with Action-Verified Neural Trajectory for Robot Learning

로봇 학습을 위한 비디오 생성 모델 기반 합성 데이터는 액션 품질의 일관성 부족과 물리적 정확성 검증의 어려움으로 인해 제한적인 성능을 보입니다.

#Review #Robot Learning #Synthetic Data Generation #Action Verification #Neural Trajectory #Video Generative Models #Imitation Learning #Data Diversity

2026년 2월 23일

[논문리뷰] DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

자율주행을 위한 생성형 비디오 월드 모델 연구 분야는 빠르게 성장하고 있지만, 안전에 중요한 시각적 요소, 궤적의 현실성, 시공간 및 에이전트 수준의 일관성, 제어 가능성을 간과하는 기존 평가 방법론의 한계에 직면해 있습니다.

#Review #Generative World Models #Autonomous Driving #Video Generation #Benchmark #Evaluation Metrics #Trajectory Prediction #Temporal Consistency #Data Diversity

2026년 1월 12일

[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents

본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.

#Review #Mobile Control Agents #User Interface Automation #Large-Scale Dataset #Benchmarking #LLM Judges #Data Diversity #Task Success Rate

2025년 11월 10일

[논문리뷰] Attributes as Textual Genes: Leveraging LLMs as Genetic Algorithm Simulators for Conditional Synthetic Data Generation

본 논문은 대규모 언어 모델(LLM)을 활용한 합성 데이터 생성 시 품질과 다양성 확보의 어려움을 해결하는 것을 목표로 합니다. 특히, 하류 태스크 훈련의 견고성을 높이기 위해 데이터 다양성과 생성기 적응성을 자동으로 증폭할 수 있는 프레임워크를 제안합니다.

#Review #Synthetic Data Generation #Large Language Models (LLMs)#Genetic Algorithms #Textual Data Augmentation #Active Learning #NLP #Data Diversity

2025년 9월 3일

[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Driven Talking Head Synthesis #Large-Scale Dataset #Data Diversity #Data Curation #Evaluation Benchmark #Generalization Gap #Algorithmic Fairness

2025년 9월 1일

[논문리뷰] TCIA: A Task-Centric Instruction Augmentation Method for Instruction Finetuning

본 논문은 대규모 언어 모델(LLM)의 효율적인 인스트럭션 튜닝을 위한 다양하고 실세계에 적합한 인스트럭션 데이터 를 구축하는 문제를 해결하고자 합니다.

#Review #Instruction Augmentation #Fine-tuning #Large Language Models #Task-Centric #Data Diversity #Task Alignment #Breadth-First Search #Constraint Generation

2025년 8월 29일

[논문리뷰] Webscale-RL: Automated Data Pipeline for Scaling RL Data to Pretraining Levels

대규모 언어 모델(LLM)이 모방 학습의 한계(훈련-추론 격차, 견고한 추론 능력 부족)를 극복하고 강화 학습(RL)을 통해 더 강력한 능력을 얻도록 하는 것이 목표입니다. 하지만 기존 RL 데이터셋은 웹 스케일 사전 훈련 코퍼스에 비해 규모와 다양성 면에서 현저히 작다는 병목 현상을 해결하고자 합니다.

#Review #Reinforcement Learning (RL)#Large Language Models (LLMs)#Data Pipeline #Web-scale Data #Question-Answering (QA)#Data Generation #Data Diversity #Data Efficiency

2025년 10월 13일

[논문리뷰] Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection

대규모 언어 모델(LLMs) 사전 훈련 시, 기존의 점수 기반 데이터 선택 방식이 다양성 부족으로 인해 성능 저하를 초래하는 문제를 해결하고자 합니다.

#Review #Data Selection #Large Language Models (LLMs)#Data Diversity #Data Quality #Principal Component Analysis (PCA)#Orthogonal Dimensions #Pre-training

2025년 10월 23일