#Data Augmentation

37개의 포스트

[논문리뷰] From SRA to Self-Flow: Data Augmentation or Self-Supervision?

본 연구는 SRA 기법이 단순한 데이터 증강(Data Augmentation) 메커니즘인지, 혹은 더 근본적인 자기 지도 학습(Self-Supervision)의 형태인지를 규명하는 것을 핵심 문제로 삼습니다.

#Review #SRA #Self-Flow #Data Augmentation #Self-Supervision #Representation Learning #Knowledge Distillation

2026년 7월 2일

[논문리뷰] AGVBench: A Reliability-Oriented Benchmark of Data Augmentation for Vein Recognition

본 논문은 정맥 인식 분야에서 자연 이미지용으로 개발된 기존 데이터 증강 기법들이 정맥 구조의 미세한 지형(Topology)과 질감을 훼손할 수 있다는 문제점을 해결하고자 합니다. 기존의 연구들은 특정 모델이나 데이터셋에 한정된 평가를 수행하여, 다양한 신경망 아키텍처와 증강 전략 간의 체계적인 비교가 부족했습니다 .

#Review #Vein Recognition #Data Augmentation #Biometrics #Reliability #Deep Learning #Benchmark #Robustness

2026년 7월 2일

[논문리뷰] The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail

본 논문은 상용 및 오픈 소스 STT 시스템이 인도 언어의 특정 엔티티 인식에서 극도로 낮은 성능을 보이는 문제를 해결하고자 한다. 기존 시스템들은 Wikipedia나 뉴스 등 read-prose 중심의 데이터로 학습되어, 실제 현업에서 빈번한 엔티티 데이터에 취약하다.

#Review #Indic ASR #TTS-STT Flywheel #Entity-Dense Audio #LoRA #Script Fidelity Rate #Data Augmentation #Entity-Hit-Rate

2026년 5월 5일

[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.

#Review #Time Series Forecasting #Foundation Model #Mixture-of-Experts (MoE)#Serial Scaling #Transformer #Pre-training #Probabilistic Forecasting #Data Augmentation

2026년 3월 5일

[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.

#Review #Visual Text Rendering #Reinforcement Learning #Structural Anomaly Perception #Reward Modeling #Text-to-Image Generation #OCR #MLLMs #Data Augmentation

2026년 2월 24일

[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.

#Review #Embodied AI #3D Scene Generation #Agentic Framework #Simulation-Ready Environments #Robot Policy Learning #Large Language Models (LLM)#Physics Simulation #Data Augmentation

2026년 2월 10일

[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Mathematical Reasoning #Difficulty-Aware Optimization #Data Augmentation #Policy Optimization #LLMs #GRPO #MQR

2026년 1월 28일

[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation

로봇 조작 데이터 수집의 어려움으로 인한 데이터 부족 및 다양성 한계를 극복하고, 기존 생성 모델이 간과했던 멀티-뷰(multi-view) 및 시간적 일관성(temporal coherence) 문제를 해결하여 로봇 정책 훈련에 필요한 고품질의 증강 데이터를 생성하는 것이 목표입니다.

#Review #Robot Manipulation #Data Augmentation #Video Generation #Diffusion Models #Multi-View #Visual Identity Prompting #Action-Guided Segmentation #Visuomotor Policy

2026년 1월 8일

[논문리뷰] Memorization in 3D Shape Generation: An Empirical Study

3D 생성 모델이 훈련 데이터를 기억하는 현상이 데이터 유출 및 생성 결과의 다양성 저하를 초래할 수 있으나, 이에 대한 체계적인 연구가 부족했습니다.

#Review #3D Shape Generation #Memorization #Generative Models #Diffusion Models #Evaluation Framework #Generalization #Data Augmentation

2026년 1월 8일

[논문리뷰] On the Role of Discreteness in Diffusion LLMs

본 논문은 확산 모델(Diffusion Models)을 언어 모델링에 적용할 때 발생하는 근본적인 문제점을 분석하고, 텍스트의 이산적이고 구조화된 특성이 확산 메커니즘과 어떻게 불일치하는지 명확히 하는 것을 목표로 합니다.

#Review #Diffusion Models #Language Models #Discrete Text #Continuous Diffusion #Text Generation #Data Augmentation #Parallel Decoding #Structural Dependency

2026년 1월 1일

[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning

본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Vision-Language Models (VLMs)#Perceptual Shaping #KL-Divergence #Chart Understanding #Data Augmentation #Reinforcement Learning (RL)#GRPO

2025년 12월 28일

[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination

본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.

#Review #LLM Hallucination Detection #Explainable AI #Faithfulness Evaluation #Data Augmentation #Reinforcement Learning #Fact-Checking

2025년 12월 23일

[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation

논문은 카메라 제어 가능한 동적 장면 비디오 생성에서 높은 카메라 포즈 충실도 와 뷰 일관성 을 유지하며, 가려진 기하학에 대해 추론하는 문제를 해결하는 것을 목표로 합니다. 특히, 기존의 깊이 재투영 기반 방법론의 부정확한 깊이 추정 오류와 궤적 조건부 모델의 데이터셋 편향 문제를 극복하고자 합니다.

#Review #Video Generation #Camera Control #Homography #Diffusion Models #Data Augmentation #Novel View Synthesis #Pose Fidelity

2025년 12월 22일

[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition

본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.

#Review #Table Recognition #Self-supervised Learning #Vision-Language Models #Reinforcement Learning #Question Answering #Data Augmentation #GRPO

2025년 12월 2일

[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.

#Review #Robotic Manipulation #Reinforcement Learning #Vision-Language-Action #Dexterous Control #Long-Horizon Tasks #Data Filtering #Data Augmentation #Foundation Models

2025년 12월 1일

[논문리뷰] Layer-Aware Video Composition via Split-then-Merge

본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Generative Video Composition #Diffusion Models #Layer-Aware Generation #Self-Composition #Affordance Learning #Video Editing #Data Augmentation

2025년 11월 30일

[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item Detection

X-ray 보안 이미지에서 금지 품목 탐지 모델을 훈련하기 위한 데이터 부족 문제 와 기존 합성 데이터 생성 방법론의 노동 집약적인 전처리 단계(예: 전경 추출) 를 해결하는 것이 주 목표입니다. 추가적인 수작업 없이 고품질의 X-ray 보안 이미지를 합성하는 효율적인 원스텝 파이프라인을 제안하고자 합니다.

#Review #X-ray Security #Synthetic Data Generation #Diffusion Models #Object Detection #Cross-Attention #Image Inpainting #Data Augmentation

2025년 11월 23일

[논문리뷰] Thinking Augmented Pre-training

본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.

#Review #Large Language Models (LLMs)#Pre-training #Data Augmentation #Reasoning #Data Efficiency #Thinking Trajectories

2025년 9월 26일

[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning

본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.

#Review #Mathematical Reasoning #Large Reasoning Models (LRMs)#Difficulty Scaling #Data Augmentation #Supervised Fine-Tuning (SFT)#Problem Generation #Solution Distillation

2025년 9월 26일

[논문리뷰] Synthetic bootstrapped pretraining

본 논문은 대규모 언어 모델(LM) 사전 훈련 시 고품질 텍스트 데이터 고갈 문제를 해결하고, 표준 사전 훈련에서 간과되는 문서 간 풍부한 상관관계 를 효과적으로 모델링하여 LM 성능을 개선하는 것을 목표로 합니다. 기존 데이터의 활용도를 극대화하여 새로운 데이터 수집 없이 모델의 성능을 향상시키는 방법론을 제안합니다.

#Review #Language Model Pretraining #Synthetic Data #Inter-document Correlation #Data Augmentation #Transformer #Bootstrapping #Concept Learning

2025년 9월 23일

[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models

본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.

#Review #Video Insertion #Diffusion Models #Diffusion Transformers #Mask-Free #Data Augmentation #Progressive Training #Preference Optimization #Video Generation

2025년 9월 23일

[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search

기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.

#Review #Visual Search #Multi-Turn Reasoning #Reinforcement Learning #Tool-Integrated Agents #Exploratory Reasoning #Data Augmentation #Over-turn Masking #Visual Language Models

2025년 9월 10일

[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem

대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.

#Review #Automated Theorem Proving #LLM #Mathematical Reasoning #Synthetic Data Generation #TPTP Ecosystem #Saturation Proving #Proof Graph Reconstruction #Data Augmentation

2025년 9월 9일

[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms

본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.

#Review #Automated Interpreting Assessment #Explainable AI #Data Augmentation #Variational Autoencoder #SHAP #Interpreting Quality #Natural Language Processing

2025년 8월 15일

[논문리뷰] TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation

본 연구는 저자원 언어(LRL) 기계 번역(MT) 모델의 성능 향상을 위해, 고품질의 주제 다양성(topic-diverse) 을 가진 병렬 데이터를 자동으로 생성하는 방법을 제시합니다. 기존의 병렬 데이터 부족 문제를 해결하고, 특히 LLM이 LRL 번역에서 부진한 한계를 극복하고자 합니다.

#Review #Low-Resource MT #Data Augmentation #Large Language Models (LLMs)#Back-Translation #In-Context Learning (ICL)#Fine-Tuning #Topic-Guided Generation #Parallel Data Synthesis

2025년 8월 13일

[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation

본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.

#Review #Robot Learning #Generalization #Shortcut Learning #Dataset Diversity #Dataset Fragmentation #Data Augmentation #Imitation Learning

2025년 8월 12일

[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.

#Review #LLM Evaluation #Answer Verification #Reward Model #Benchmarking #Data Augmentation #Reinforcement Learning #Formula Verification #Hallucination Detection

2025년 8월 6일

[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding

본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.

#Review #GUI grounding #AI agent #Large Multi-modal Model #Perception #Data Augmentation #Direct Preference Optimization #Computational Efficiency

2025년 8월 2일

[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

이 논문은 기존의 자율주행 월드 모델들이 합성 데이터의 효과를 다운스트림 인지 태스크 에 대해 불공정하게 평가하고 있음을 지적합니다.

#Review #Synthetic Data Generation #Autonomous Driving #Perception Tasks #Diffusion Models #3D Asset Editing #World Model #Data Augmentation #nuScenes

2025년 10월 30일

[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models

통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.

#Review #Unified Vision-Language Models #Reinforcement Learning #Multimodal Alignment #Pairwise Training #Group Relative Policy Optimization #Data Augmentation #Text-to-Image Generation #Visual Reasoning

2025년 10월 30일

[논문리뷰] KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints

대규모 멀티모달 모델(LMM)의 고정적이고 제한적인 지식 문제를 해결하고, 새로운 지식 주입 시 발생하는 치명적 망각(Catastrophic Forgetting)을 완화하는 것을 목표로 합니다.

#Review #Knowledge Injection #Large Multimodal Models #Catastrophic Forgetting #Data Augmentation #Parameter-Efficient Fine-Tuning #Null Space #Continual Learning

2025년 10월 23일

[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model

본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Model #World Model #Data Augmentation #Robot Generalization #Embodied AI #RGBD #Chain-of-Thought

2025년 10월 23일

[논문리뷰] R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation

본 연구는 로봇 매니퓰레이션에서 공간적 일반화 를 위한 방대한 인간 시연 데이터 의 필요성을 해결하고자 합니다.

#Review #Robotic Manipulation #Data Augmentation #Spatial Generalization #3D Data Generation #Imitation Learning #Point Cloud #Real-to-Real #Mobile Manipulation

2025년 10월 10일

[논문리뷰] Fidelity-Aware Data Composition for Robust Robot Generalization

본 논문은 대규모 시각적으로 균질한 데이터셋으로 훈련된 로봇 정책이 Shortcut Learning 에 취약하여 Out-of-Distribution (OOD) 일반화 가 저해되는 문제를 해결하고자 합니다.

#Review #Robot Generalization #Data Augmentation #Out-of-Distribution (OOD)#Shortcut Learning #Information Fidelity #Data Composition #Diffusion Models #Multi-View Video Synthesis

2025년 10월 10일

[논문리뷰] Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models

이 논문은 대규모 언어 모델(LLMs) 시대 의 코드-스위칭(CSW) NLP 연구 현황 을 종합적으로 분석하고, LLMs가 CSW 모델링에 미친 영향을 평가하며, 여전히 남아있는 과제를 식별하고 미래 연구 방향을 제시하는 것을 목표로 합니다.

#Review #Code-switching #Multilingual NLP #Large Language Models #NLP Survey #Data Augmentation #Evaluation Metrics #Low-Resource Languages

2025년 10월 9일

[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning

본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Code-Assisted Reasoning #Chain-of-Thought (CoT)#Instruction Tuning #Data Augmentation #LLMs #Mathematical Reasoning #Self-Verification #Code Generation

2025년 10월 8일

[논문리뷰] EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty

본 논문은 형식적 정리 증명(formal theorem proving) 분야에서 대규모 언어 모델(LLMs) 의 일반화 능력이 부족하고 문제 진술의 사소한 변화에도 취약하다는 한계를 해결하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Data Augmentation #Large Language Models #Formal Mathematics #Symmetry #Difficulty Evolution #Abstract Syntax Tree #Generalizability

2025년 10월 7일