#Large-Scale Dataset

6개의 포스트

[논문리뷰] FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing

본 논문은 제어 가능한 비디오 편집 패러다임인 First-Frame Propagation (FFP) 의 주요 한계를 해결하고자 합니다.

#Review #Video Editing #First-Frame Propagation (FFP)#Large-Scale Dataset #Generative Models #Temporal Consistency #Spatio-Temporal RoPE #Self-Distillation

2026년 1월 6일

[논문리뷰] Grounding Computer Use Agents on Human Demonstrations

이 연구는 컴퓨터 사용 에이전트(CUA)의 핵심 과제인 'grounding'의 신뢰성을 높이는 것을 목표로 합니다.

#Review #Computer Use Agents #UI Grounding #Desktop Applications #Human Demonstrations #Large-Scale Dataset #Vision-Language Models #Supervised Fine-tuning #Reinforcement Learning

2025년 11월 11일

[논문리뷰] DigiData: Training and Evaluating General-Purpose Mobile Control Agents

본 논문은 모바일 제어 에이전트 훈련을 위한 고품질의 대규모 데이터셋 인 DigiData를 구축하고, 에이전트 성능을 평가할 수 있는 강력한 벤치마크 인 DigiData-Bench를 제시하는 것을 목표로 합니다.

#Review #Mobile Control Agents #User Interface Automation #Large-Scale Dataset #Benchmarking #LLM Judges #Data Diversity #Task Success Rate

2025년 11월 10일

[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Driven Talking Head Synthesis #Large-Scale Dataset #Data Diversity #Data Curation #Evaluation Benchmark #Generalization Gap #Algorithmic Fairness

2025년 9월 1일

[논문리뷰] UltraHR-100K: Enhancing UHR Image Synthesis with A Large-Scale High-Quality Dataset

본 논문은 초고해상도(UHR) Text-to-Image (T2I) 생성 시 직면하는 두 가지 주요 문제, 즉 대규모 고품질 UHR 데이터셋의 부재 와 미세한 디테일 합성을 위한 맞춤형 훈련 전략의 부족 을 해결하는 것을 목표로 합니다.

#Review #Ultra-High-Resolution #Text-to-Image Generation #Diffusion Models #Large-Scale Dataset #Frequency-Aware Training #Detail Enhancement #Image Synthesis

2025년 10월 29일

[논문리뷰] Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

본 논문은 대규모, 고품질, 공개적으로 접근 가능한 텍스트 기반 이미지 편집 데이터셋의 부족으로 인해 제한되었던 연구 발전을 해소하는 것을 목표로 합니다. 실제 이미지를 기반으로 한 포괄적이고 다양한 데이터셋을 제공하여 차세대 텍스트 기반 이미지 편집 모델의 훈련 및 벤치마킹을 위한 견고한 기반을 구축하고자 합니다.

#Review #Text-Guided Image Editing #Large-Scale Dataset #Multimodal Models #Dataset Curation #Quality Control #Prompt Engineering #Preference Learning #Multi-Turn Editing

2025년 10월 23일