[논문리뷰] The TTS-STT Flywheel: Synthetic Entity-Dense Audio Closes the Indic ASR Gap Where Commercial and Open-Source Systems Fail본 논문은 상용 및 오픈 소스 STT 시스템이 인도 언어의 특정 엔티티 인식에서 극도로 낮은 성능을 보이는 문제를 해결하고자 한다. 기존 시스템들은 Wikipedia나 뉴스 등 read-prose 중심의 데이터로 학습되어, 실제 현업에서 빈번한 엔티티 데이터에 취약하다.#Review#Indic ASR#TTS-STT Flywheel#Entity-Dense Audio#LoRA#Script Fidelity Rate#Data Augmentation#Entity-Hit-Rate2026년 5월 5일댓글 수 로딩 중
[논문리뷰] Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling기존 시계열 파운데이션 모델의 확장성 병목 현상 을 해결하고, 시계열 예측의 본질적인 직렬적 특성 을 고려하여 추론 비용을 줄이면서 훨씬 강력한 예측 성능 을 제공하는 빌리언 스케일 모델 을 개발하는 것이 목표입니다. 특히 장기 예측의 정확도를 개선하는 데 중점을 둡니다.#Review#Time Series Forecasting#Foundation Model#Mixture-of-Experts (MoE)#Serial Scaling#Transformer#Pre-training#Probabilistic Forecasting#Data Augmentation2026년 3월 5일댓글 수 로딩 중
[논문리뷰] TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering본 논문은 텍스트-이미지 생성 모델에서 텍스트의 왜곡, 흐림, 정렬 불량 등 미세한 구조적 이상 을 기존 OCR 모델 이나 MLLMs 가 제대로 인식하지 못해 Visual Text Rendering (VTR) 평가 및 RL 기반 최적화 에 병목 현상이 발생하는 문제를 해결하고자 합니다.#Review#Visual Text Rendering#Reinforcement Learning#Structural Anomaly Perception#Reward Modeling#Text-to-Image Generation#OCR#MLLMs#Data Augmentation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] SAGE: Scalable Agentic 3D Scene Generation for Embodied AI본 논문은 Embodied AI 의 고비용 및 안전 문제로 인한 데이터 수집의 한계를 극복하고, 기존 장면 생성 시스템의 물리적 비유효성 및 비현실성 문제를 해결하고자 합니다.#Review#Embodied AI#3D Scene Generation#Agentic Framework#Simulation-Ready Environments#Robot Policy Learning#Large Language Models (LLM)#Physics Simulation#Data Augmentation2026년 2월 10일댓글 수 로딩 중
[논문리뷰] Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation대규모 언어 모델(LLMs)의 수학적 추론 능력을 강화하기 위해 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방법론이 어려운 문제에 대한 학습을 충분히 다루지 못하는 한계를 해결하는 것을 목표로 합니다.#Review#Reinforcement Learning#Mathematical Reasoning#Difficulty-Aware Optimization#Data Augmentation#Policy Optimization#LLMs#GRPO#MQR2026년 1월 28일댓글 수 로딩 중
[논문리뷰] RoboVIP: Multi-View Video Generation with Visual Identity Prompting Augments Robot Manipulation로봇 조작 데이터 수집의 어려움으로 인한 데이터 부족 및 다양성 한계를 극복하고, 기존 생성 모델이 간과했던 멀티-뷰(multi-view) 및 시간적 일관성(temporal coherence) 문제를 해결하여 로봇 정책 훈련에 필요한 고품질의 증강 데이터를 생성하는 것이 목표입니다.#Review#Robot Manipulation#Data Augmentation#Video Generation#Diffusion Models#Multi-View#Visual Identity Prompting#Action-Guided Segmentation#Visuomotor Policy2026년 1월 8일댓글 수 로딩 중
[논문리뷰] Memorization in 3D Shape Generation: An Empirical Study3D 생성 모델이 훈련 데이터를 기억하는 현상이 데이터 유출 및 생성 결과의 다양성 저하를 초래할 수 있으나, 이에 대한 체계적인 연구가 부족했습니다.#Review#3D Shape Generation#Memorization#Generative Models#Diffusion Models#Evaluation Framework#Generalization#Data Augmentation2026년 1월 8일댓글 수 로딩 중
[논문리뷰] On the Role of Discreteness in Diffusion LLMs본 논문은 확산 모델(Diffusion Models)을 언어 모델링에 적용할 때 발생하는 근본적인 문제점을 분석하고, 텍스트의 이산적이고 구조화된 특성이 확산 메커니즘과 어떻게 불일치하는지 명확히 하는 것을 목표로 합니다.#Review#Diffusion Models#Language Models#Discrete Text#Continuous Diffusion#Text Generation#Data Augmentation#Parallel Decoding#Structural Dependency2026년 1월 1일댓글 수 로딩 중
[논문리뷰] See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning본 논문은 대규모 시각-언어 모델(VLM)이 미세한 시각적 증거(fine-grained visual evidence) 를 놓치고, 도메인 간 일반화 능력이 떨어지며, 추론 시 높은 비용을 유발하는 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Reasoning#Vision-Language Models (VLMs)#Perceptual Shaping#KL-Divergence#Chart Understanding#Data Augmentation#Reinforcement Learning (RL)#GRPO2025년 12월 28일댓글 수 로딩 중
[논문리뷰] FaithLens: Detecting and Explaining Faithfulness Hallucination본 논문은 대규모 언어 모델(LLM) 출력에서 발생하는 충실성 환각(faithfulness hallucination) 을 탐지하고, 그 결정에 대한 설명(explanation) 을 함께 제공하여 LLM의 신뢰성을 향상시키는 비용 효율적이고 효과적인 모델 FaithLens 를 제안합니다.#Review#LLM Hallucination Detection#Explainable AI#Faithfulness Evaluation#Data Augmentation#Reinforcement Learning#Fact-Checking2025년 12월 23일댓글 수 로딩 중
[논문리뷰] Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation논문은 카메라 제어 가능한 동적 장면 비디오 생성에서 높은 카메라 포즈 충실도 와 뷰 일관성 을 유지하며, 가려진 기하학에 대해 추론하는 문제를 해결하는 것을 목표로 합니다. 특히, 기존의 깊이 재투영 기반 방법론의 부정확한 깊이 추정 오류와 궤적 조건부 모델의 데이터셋 편향 문제를 극복하고자 합니다.#Review#Video Generation#Camera Control#Homography#Diffusion Models#Data Augmentation#Novel View Synthesis#Pose Fidelity2025년 12월 22일댓글 수 로딩 중
[논문리뷰] TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition본 논문은 테이블 인식(TR) 시스템 개발 시 대규모 레이블링된 데이터의 높은 비용과 접근성 한계 로 인해 오픈소스 모델이 독점 모델에 비해 뒤처지는 문제를 해결하고자 합니다.#Review#Table Recognition#Self-supervised Learning#Vision-Language Models#Reinforcement Learning#Question Answering#Data Augmentation#GRPO2025년 12월 2일댓글 수 로딩 중
[논문리뷰] GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation본 논문은 일반적인 Vision-Language-Action (VLA) 파운데이션 모델 이 실제 환경에서 발생하는 긴 호라이즌의 정교하고 민첩한 로봇 조작 에서 겪는 한계를 해결하는 것을 목표로 합니다.#Review#Robotic Manipulation#Reinforcement Learning#Vision-Language-Action#Dexterous Control#Long-Horizon Tasks#Data Filtering#Data Augmentation#Foundation Models2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Layer-Aware Video Composition via Split-then-Merge본 논문은 생성 비디오 합성에서 제어력을 강화하고 데이터 부족 문제를 해결하는 것을 목표로 합니다.#Review#Generative Video Composition#Diffusion Models#Layer-Aware Generation#Self-Composition#Affordance Learning#Video Editing#Data Augmentation2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Taming Generative Synthetic Data for X-ray Prohibited Item DetectionX-ray 보안 이미지에서 금지 품목 탐지 모델을 훈련하기 위한 데이터 부족 문제 와 기존 합성 데이터 생성 방법론의 노동 집약적인 전처리 단계(예: 전경 추출) 를 해결하는 것이 주 목표입니다. 추가적인 수작업 없이 고품질의 X-ray 보안 이미지를 합성하는 효율적인 원스텝 파이프라인을 제안하고자 합니다.#Review#X-ray Security#Synthetic Data Generation#Diffusion Models#Object Detection#Cross-Attention#Image Inpainting#Data Augmentation2025년 11월 23일댓글 수 로딩 중
[논문리뷰] Thinking Augmented Pre-training본 논문은 대규모 언어 모델(LLM) 훈련 시 고품질 데이터의 제한된 가용성과 복잡한 추론 토큰 학습의 어려움이라는 문제를 해결하고자 합니다.#Review#Large Language Models (LLMs)#Pre-training#Data Augmentation#Reasoning#Data Efficiency#Thinking Trajectories2025년 9월 26일댓글 수 로딩 중
[논문리뷰] ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning본 논문은 복잡한 추론 능력을 향상시키기 위해 어려운 수학 문제 의 생성을 확장하는 효율적인 파이프라인인 ScaleDiff 를 제안합니다. 기존의 문제 생성 방식이 높은 비용, 복잡한 프롬프트 엔지니어링, 그리고 제한적인 난이도 수준으로 인해 확장성이 부족하다는 한계를 극복하고자 합니다.#Review#Mathematical Reasoning#Large Reasoning Models (LRMs)#Difficulty Scaling#Data Augmentation#Supervised Fine-Tuning (SFT)#Problem Generation#Solution Distillation2025년 9월 26일댓글 수 로딩 중
[논문리뷰] Synthetic bootstrapped pretraining본 논문은 대규모 언어 모델(LM) 사전 훈련 시 고품질 텍스트 데이터 고갈 문제를 해결하고, 표준 사전 훈련에서 간과되는 문서 간 풍부한 상관관계 를 효과적으로 모델링하여 LM 성능을 개선하는 것을 목표로 합니다. 기존 데이터의 활용도를 극대화하여 새로운 데이터 수집 없이 모델의 성능을 향상시키는 방법론을 제안합니다.#Review#Language Model Pretraining#Synthetic Data#Inter-document Correlation#Data Augmentation#Transformer#Bootstrapping#Concept Learning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.#Review#Video Insertion#Diffusion Models#Diffusion Transformers#Mask-Free#Data Augmentation#Progressive Training#Preference Optimization#Video Generation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search기존 오픈소스 VLM(Vision-Language Model)의 단조로운 추론 패턴과 제한된 상호작용 턴 수로 인해 시행착오적 탐색 이 필요한 어려운 시각 검색 작업을 해결하지 못하는 문제를 다룹니다.#Review#Visual Search#Multi-Turn Reasoning#Reinforcement Learning#Tool-Integrated Agents#Exploratory Reasoning#Data Augmentation#Over-turn Masking#Visual Language Models2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Saturation-Driven Dataset Generation for LLM Mathematical Reasoning in the TPTP Ecosystem대규모 언어 모델(LLM)의 수학적 추론 능력 향상을 저해하는 고품질, 논리적으로 건전한 데이터의 부족 문제를 해결하는 것이 주된 목표입니다. 수십 년간의 자동화된 정리 증명(ATP) 연구를 확장 가능한 데이터 엔진으로 전환하여 LLM의 학습을 위한 대규모의 검증된 수학적 명제 및 추론 태스크 코퍼스를 생성하고자 합니다.#Review#Automated Theorem Proving#LLM#Mathematical Reasoning#Synthetic Data Generation#TPTP Ecosystem#Saturation Proving#Proof Graph Reconstruction#Data Augmentation2025년 9월 9일댓글 수 로딩 중
[논문리뷰] From Black Box to Transparency: Enhancing Automated Interpreting Assessment with Explainable AI in College Classrooms본 논문은 기존의 수동 통역 평가 방식의 한계(편향, 불일치)와 자동 평가 시스템의 불투명성 및 데이터 불균형 문제를 해결하고자 합니다. 특히 모델 예측에 대한 설명 가능성(Explainability) 을 강조하며, 통역 품질 평가를 위한 투명하고 다차원적인 자동화 프레임워크 를 제안합니다.#Review#Automated Interpreting Assessment#Explainable AI#Data Augmentation#Variational Autoencoder#SHAP#Interpreting Quality#Natural Language Processing2025년 8월 15일댓글 수 로딩 중
[논문리뷰] TopXGen: Topic-Diverse Parallel Data Generation for Low-Resource Machine Translation본 연구는 저자원 언어(LRL) 기계 번역(MT) 모델의 성능 향상을 위해, 고품질의 주제 다양성(topic-diverse) 을 가진 병렬 데이터를 자동으로 생성하는 방법을 제시합니다. 기존의 병렬 데이터 부족 문제를 해결하고, 특히 LLM이 LRL 번역에서 부진한 한계를 극복하고자 합니다.#Review#Low-Resource MT#Data Augmentation#Large Language Models (LLMs)#Back-Translation#In-Context Learning (ICL)#Fine-Tuning#Topic-Guided Generation#Parallel Data Synthesis2025년 8월 13일댓글 수 로딩 중
[논문리뷰] Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation본 논문은 일반 로봇 정책의 제한된 일반화 능력의 근본 원인을 규명하고자 합니다. 특히, 태스크와 관련 없는 특징에 의존하는 숏컷 학습(shortcut learning)이 일반화의 주요 장애물인지 조사합니다.#Review#Robot Learning#Generalization#Shortcut Learning#Dataset Diversity#Dataset Fragmentation#Data Augmentation#Imitation Learning2025년 8월 12일댓글 수 로딩 중
[논문리뷰] CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward현재 대규모 언어 모델(LLM)의 답변 검증 방식은 규칙 기반 매칭이나 일반 LLM 사용 시 반복적인 사용자 정의, 복잡한 엣지 케이스 처리의 어려움, 도메인 일반화 능력 부족 등의 한계를 가집니다.#Review#LLM Evaluation#Answer Verification#Reward Model#Benchmarking#Data Augmentation#Reinforcement Learning#Formula Verification#Hallucination Detection2025년 8월 6일댓글 수 로딩 중
[논문리뷰] Phi-Ground Tech Report: Advancing Perception in GUI Grounding본 논문은 현재 65% 미만 의 정확도를 보이는 GUI 그라운딩 모델의 한계를 극복하고, Computer Use Agent (CUA) 의 핵심 구성 요소로서 GUI 요소 인식을 향상시켜 실제 애플리케이션에 배포 가능한 수준의 성능을 달성하는 것을 목표로 합니다.#Review#GUI grounding#AI agent#Large Multi-modal Model#Perception#Data Augmentation#Direct Preference Optimization#Computational Efficiency2025년 8월 2일댓글 수 로딩 중
[논문리뷰] Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks이 논문은 기존의 자율주행 월드 모델들이 합성 데이터의 효과를 다운스트림 인지 태스크 에 대해 불공정하게 평가하고 있음을 지적합니다.#Review#Synthetic Data Generation#Autonomous Driving#Perception Tasks#Diffusion Models#3D Asset Editing#World Model#Data Augmentation#nuScenes2025년 10월 30일댓글 수 로딩 중
[논문리뷰] PairUni: Pairwise Training for Unified Multimodal Language Models통합 멀티모달 언어 모델(UVLMs)에서 이해(understanding) 및 생성(generation) 태스크를 동시에 학습할 때 발생하는 이질적인 데이터 및 감독(supervision)으로 인한 태스크 간 간섭 문제 를 해결하고자 합니다.#Review#Unified Vision-Language Models#Reinforcement Learning#Multimodal Alignment#Pairwise Training#Group Relative Policy Optimization#Data Augmentation#Text-to-Image Generation#Visual Reasoning2025년 10월 30일댓글 수 로딩 중
[논문리뷰] R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation본 연구는 로봇 매니퓰레이션에서 공간적 일반화 를 위한 방대한 인간 시연 데이터 의 필요성을 해결하고자 합니다.#Review#Robotic Manipulation#Data Augmentation#Spatial Generalization#3D Data Generation#Imitation Learning#Point Cloud#Real-to-Real#Mobile Manipulation2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Fidelity-Aware Data Composition for Robust Robot Generalization본 논문은 대규모 시각적으로 균질한 데이터셋으로 훈련된 로봇 정책이 Shortcut Learning 에 취약하여 Out-of-Distribution (OOD) 일반화 가 저해되는 문제를 해결하고자 합니다.#Review#Robot Generalization#Data Augmentation#Out-of-Distribution (OOD)#Shortcut Learning#Information Fidelity#Data Composition#Diffusion Models#Multi-View Video Synthesis2025년 10월 10일댓글 수 로딩 중
[논문리뷰] Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models이 논문은 대규모 언어 모델(LLMs) 시대 의 코드-스위칭(CSW) NLP 연구 현황 을 종합적으로 분석하고, LLMs가 CSW 모델링에 미친 영향을 평가하며, 여전히 남아있는 과제를 식별하고 미래 연구 방향을 제시하는 것을 목표로 합니다.#Review#Code-switching#Multilingual NLP#Large Language Models#NLP Survey#Data Augmentation#Evaluation Metrics#Low-Resource Languages2025년 10월 9일댓글 수 로딩 중
[논문리뷰] Scaling Code-Assisted Chain-of-Thoughts and Instructions for Model Reasoning본 논문은 LLM의 추론 능력 향상을 위해 기존 자연어 기반 CoT(Chain-of-Thought) 방식의 검증 불가능성, 확장성 한계, 다양성 부족 문제를 해결하는 것을 목표로 합니다.#Review#Code-Assisted Reasoning#Chain-of-Thought (CoT)#Instruction Tuning#Data Augmentation#LLMs#Mathematical Reasoning#Self-Verification#Code Generation2025년 10월 8일댓글 수 로딩 중
[논문리뷰] EvolProver: Advancing Automated Theorem Proving by Evolving Formalized Problems via Symmetry and Difficulty본 논문은 형식적 정리 증명(formal theorem proving) 분야에서 대규모 언어 모델(LLMs) 의 일반화 능력이 부족하고 문제 진술의 사소한 변화에도 취약하다는 한계를 해결하는 것을 목표로 합니다.#Review#Automated Theorem Proving#Data Augmentation#Large Language Models#Formal Mathematics#Symmetry#Difficulty Evolution#Abstract Syntax Tree#Generalizability2025년 10월 7일댓글 수 로딩 중
[논문리뷰] KORE: Enhancing Knowledge Injection for Large Multimodal Models via Knowledge-Oriented Augmentations and Constraints대규모 멀티모달 모델(LMM)의 고정적이고 제한적인 지식 문제를 해결하고, 새로운 지식 주입 시 발생하는 치명적 망각(Catastrophic Forgetting)을 완화하는 것을 목표로 합니다.#Review#Knowledge Injection#Large Multimodal Models#Catastrophic Forgetting#Data Augmentation#Parameter-Efficient Fine-Tuning#Null Space#Continual Learning2025년 10월 23일댓글 수 로딩 중
[논문리뷰] GigaBrain-0: A World Model-Powered Vision-Language-Action Model본 논문은 일반 로봇용 VLA(Vision-Language-Action) 모델이 직면한 대규모 실제 로봇 데이터 수집의 비효율성 및 제한된 다양성 문제를 해결하는 것을 목표로 합니다.#Review#Vision-Language-Action Model#World Model#Data Augmentation#Robot Generalization#Embodied AI#RGBD#Chain-of-Thought2025년 10월 23일댓글 수 로딩 중