[논문리뷰] Combinatorial Synthesis: Scaling Code RLVR via Atomic Decomposition and Recombination본 논문은 RLVR의 확장을 가로막는 핵심 병목인 '도전적인 검증 가능(verifiable) 코드 데이터의 희소성' 문제를 해결하고자 합니다.#Review#RLVR#Synthetic Data#Atomic Decomposition#Code Generation#Scaling#Reinforcement Learning2026년 6월 4일댓글 수 로딩 중
[논문리뷰] Cosmos 3: Omnimodal World Models for Physical AIPhysical AI 에이전트 학습을 위한 기존의 파편화된 파이프라인은 이해(Understanding)와 생성(Generation) 모듈이 분리되어 있어 데이터 효율성과 확장성이 낮습니다.#Review#World Model#Physical AI#Mixture-of-Transformers#Omnimodal#Data-Driven Specialization#Synthetic Data#Action-Conditioned Generation2026년 6월 3일댓글 수 로딩 중
[논문리뷰] OCC-RAG: Optimal Cognitive Core for Faithful Question Answering본 논문은 범용 LLM이 파라미터 내 방대한 지식에 의존하여 주어진 Context를 무시하거나 할루시네이션(Hallucination)을 생성하는 문제를 해결하고자 합니다.#Review#Small Language Models#Context Question Answering#Multi-hop Reasoning#Faithfulness#Mid-training#Synthetic Data#Abstention2026년 6월 2일댓글 수 로딩 중
[논문리뷰] QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks본 논문은 Deep Research Agents의 광범위한 역량을 갖춘 훈련 방식의 불투명성과 기존 Open-weight 모델들의 한계점을 해결하고자 한다.#Review#Deep Research Agents#Synthetic Data#Rubric Tree#Context Management#Reinforcement Learning#Fact Seeking#Citation Grounding#Report Synthesis2026년 5월 25일댓글 수 로딩 중
[논문리뷰] Does Synthetic Layered Design Data Benefit Layered Design Decomposition?본 연구는 고품질 레이어드 그래픽 디자인 데이터를 생성하기 위한 스케일러블(scalable)하고 실용적인 대안으로서 순수 합성 데이터의 효용성을 검증하고자 합니다.#Review#Layered Design Decomposition#Synthetic Data#Graphic Design#Data-Centric Study#VLM-Guided Inference#CLD Baseline2026년 5월 14일댓글 수 로딩 중
[논문리뷰] ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes본 논문은 현대의 멀티모달 모델들이 이미지를 코드로 변환하는 능력을 평가할 때 발생하는 벤치마크 오염과 고정된 데이터셋의 한계를 해결하기 위해 ShapeCodeBench를 제안합니다. 기존 연구들은 결정론적 실행이나 정밀한 난이도 제어가 부족하여 모델의 실패 원인을 명확히 진단하기 어렵다는 문제가 있었습니다.#Review#Perception-to-Program Reconstruction#Benchmark#Synthetic Data#Renewable Evaluation#Multimodal Models#DSL2026년 5월 13일댓글 수 로딩 중
[논문리뷰] Structured Distillation of Web Agent Capabilities Enables Generalization본 논문은 최신 Frontier LLM이 보유한 웹 에이전트 능력을 로컬에 배포 가능한 소형 모델로 효율적으로 이전(Distillation)하는 것을 목적으로 합니다. 기존 연구들은 다양한 데이터 생성 파이프라인을 제시했지만, 이를 체계적으로 비교할 수 있는 표준화된 프레임워크가 부족했습니다.#Review#Web Agent#Knowledge Distillation#Synthetic Data#Trajectory Synthesis#Agent-as-Annotators#Supervised Fine-Tuning#Generalization2026년 4월 9일댓글 수 로딩 중
[논문리뷰] PoseDreamer: Scalable and Photorealistic Human Data Generation Pipeline with Diffusion Models기존의 3D Human Mesh Recovery 모델 학습을 위한 데이터셋은 크게 수동으로 어노테이션된 실제 데이터와 3D 엔진으로 렌더링된 합성 데이터로 나뉩니다.#Review#Diffusion Models#Human Mesh Recovery#Synthetic Data#Direct Preference Optimization#Data Generation Pipeline#3D-2D Consistency2026년 3월 31일댓글 수 로딩 중
[논문리뷰] MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data본 논문은 Vision Language Models (VLMs)의 자기 개선 과정에서 필요한 시각적 데이터의 의존성을 완전히 제거하고, 제로 데이터(zero-data) 환경에서 스스로 진화하는(self-evolving) 멀티모달 추론 능력을 개발하는 것을 목표로 합니다.#Review#Vision-Language Models#Self-Evolution#Reinforcement Learning#Zero-Data#Multi-Agent Systems#Code Generation#Synthetic Data2026년 3월 10일댓글 수 로딩 중
[논문리뷰] UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data본 논문은 bimanual 로봇을 위한 보편적인 dexterous grasping에서 데이터 부족 문제를 해결하고, 여러 가지 grasp 전략을 통합하여 실제와 유사한 물리적이며 기하학적으로 일치하는 grasp를 생성하는 것을 목표로 합니다.#Review#Dexterous Grasping#Bimanual Robots#Synthetic Data#Grasp Synthesis#Sim-to-Real Transfer#Point Cloud#Transformer Policy2026년 3월 5일댓글 수 로딩 중
[논문리뷰] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning본 논문은 LLM의 추론 후속 훈련 과정에서 발생하는 콜드 스타트 문제, 제한된 도메인 커버리지, 주석 병목 현상 이라는 세 가지 핵심 데이터 관련 문제를 해결하는 것을 목표로 합니다. 특히, 인간 주석 없이 컴팩트하면서도 일반화 가능한 고품질 합성 추론 데이터셋 을 구축하여 이 문제를 해결하고자 합니다.#Review#Synthetic Data#LLM Reasoning#Chain-of-Thought#Data Efficiency#Post-training#Generalization#Quality Control#Domain Coverage2026년 3월 2일댓글 수 로딩 중
[논문리뷰] Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility과학적 추론을 위한 멀티모달 데이터의 부족과 기존 Text-to-Image(T2I) 모델 이 시각적으로는 그럴듯하지만 과학적으로 부정확한 이미지를 생성하는 문제를 해결하고자 합니다.#Review#Scientific Image Synthesis#Multimodal Reasoning#Text-to-Image#Benchmarking#Programmatic Synthesis#Large Multimodal Models#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback본 논문은 복잡한 다중 문서 추론이 필요한 딥 서치(deep search) 질문-답변(QA) 쌍을 효율적으로 생성하는 문제를 다룹니다.#Review#Deep Search#Agentic Data Generation#LLMs#Execution Feedback#Reinforcement Learning#Question Answering#Synthetic Data2026년 1월 26일댓글 수 로딩 중
[논문리뷰] DSGym: A Holistic Framework for Evaluating and Training Data Science Agents기존 데이터 사이언스 LLM 벤치마크의 단편적인 평가 인터페이스 , 좁은 태스크 커버리지 , 그리고 데이터 의존성 부족 문제를 해결하는 것을 목표로 합니다. 특히, 실제 데이터를 사용하지 않고도 해결 가능한 '지름길' 문제들을 제거하여 데이터에 기반한 진정한 추론 능력 을 평가하고자 합니다.#Review#Data Science Agents#LLM Evaluation#Benchmark Framework#Execution-Grounded Training#Bioinformatics#Kaggle#Shortcut Filtering#Synthetic Data2026년 1월 25일댓글 수 로딩 중
[논문리뷰] Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing기존 Composed Image Retrieval (CIR) 벤치마크의 한계, 즉 제한된 쿼리 범주, 실제 시나리오의 다양성 부족, 모호한 범주 정의, 모달리티 편향 등을 극복하는 것을 목표로 합니다.#Review#Composed Image Retrieval#Fine-Grained Evaluation#Image Editing#Benchmark#Multimodal LLM#Synthetic Data#Compositional Reasoning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] TranslateGemma Technical Report본 논문은 Gemma 3 파운데이션 모델을 기반으로 한 오픈형 기계 번역 모델인 TranslateGemma 를 소개합니다.#Review#Machine Translation#Large Language Models#Reinforcement Learning#Supervised Fine-tuning#Gemma 3#Multimodal AI#Synthetic Data2026년 1월 14일댓글 수 로딩 중
[논문리뷰] SurgWorld: Learning Surgical Robot Policies from Videos via World Modeling본 논문은 수술 로봇 학습의 주요 병목인 시각 관측 및 정확한 로봇 움직임 데이터의 부족 문제 를 해결하고자 합니다. 대량의 수술 비디오가 존재하지만 로봇 액션 레이블이 없어 모방 학습에 직접 활용하기 어렵습니다. 따라서, 세계 모델을 통해 일반화 가능하고 데이터 효율적인 수술 로봇 정책 을 학습하는 것을 목표로 합니다.#Review#Surgical Robotics#World Models#Video Generation#Imitation Learning#Inverse Dynamics Model#Synthetic Data#Vision-Language-Action Models#Data Scarcity2025년 12월 29일댓글 수 로딩 중
[논문리뷰] DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI본 논문은 대규모 언어 모델(LLM)을 위한 고품질 데이터 준비 파이프라인의 파편화된 현상 과 표준화 부족 문제 를 해결하고자 합니다. 특히, LLM 기반의 데이터 합성 및 반복적인 의미론적 정제 를 효과적으로 지원하는 통합적이고 확장 가능한 LLM 구동 데이터 준비 프레임워크 를 구축하는 것이 목표입니다.#Review#LLM Data Preparation#Workflow Automation#Data-Centric AI#Synthetic Data#Multi-Agent System#Framework#Reproducibility2025년 12월 22일댓글 수 로딩 중
[논문리뷰] SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning본 논문은 기존 SOTA 비디오 추론 모델이 단일 턴 추론 방식에 의존하며 대량의 프레임을 처리하는 비효율성을 지적합니다.#Review#Video Reasoning#Reinforcement Learning#Multi-Turn Reasoning#Agent System#Long Videos#Synthetic Data#Any-Horizon Reasoning#Large Language Models2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Does Understanding Inform Generation in Unified Multimodal Models? From Analysis to Path Forward본 논문은 통합 멀티모달 모델(UMMs)에서 '이해' 능력이 '생성' 과정에 실제로 정보를 제공하고 안내하는지 여부를 조사합니다.#Review#Unified Multimodal Models#Understanding-Generation Gap#Reasoning#Knowledge Transfer#Chain-of-Thought#Self-Training#Synthetic Data#Evaluation Framework2025년 11월 25일댓글 수 로딩 중
[논문리뷰] Φeat: Physically-Grounded Feature Representation기존의 자기 지도 시각 백본이 고수준의 의미론적 특징과 저수준의 물리적 요소를 혼합하여 물리적 추론을 방해하는 문제를 해결하고자 합니다.#Review#Self-supervised Learning#Physically-Grounded Features#Material Representation#Intrinsic Scene Understanding#Vision Transformer#Synthetic Data#Contrastive Learning2025년 11월 18일댓글 수 로딩 중
[논문리뷰] TopoPerception: A Shortcut-Free Evaluation of Global Visual Perception in Large Vision-Language ModelsLarge Vision-Language Models (LVLMs)가 시각적 인코더의 정보 병목 현상 과 로컬 단축키 로 인해 전역 시각 정보를 제대로 인지하지 못하는 문제를 해결하는 것이 목표입니다.#Review#LVLM Evaluation#Global Visual Perception#Topological Properties#Shortcut-Free Benchmark#Visual Bottleneck#Multimodal AI#Synthetic Data2025년 11월 18일댓글 수 로딩 중
[논문리뷰] ChartM^3: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension본 연구는 기존 멀티모달 대규모 언어 모델(MLLM)이 실제 복잡한 차트 이해 작업에서 겪는 한계(제한된 차트 유형 및 복잡성, 낮은 질문 복잡성, 해석력 부족 등)를 해결하고자 합니다.#Review#Chart Comprehension#Visual Reasoning#Data Generation#Code-Driven Pipeline#Multimodal LLMs#Retrieval-Augmented Generation#Reinforcement Learning#Synthetic Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Synthetic bootstrapped pretraining본 논문은 대규모 언어 모델(LM) 사전 훈련 시 고품질 텍스트 데이터 고갈 문제를 해결하고, 표준 사전 훈련에서 간과되는 문서 간 풍부한 상관관계 를 효과적으로 모델링하여 LM 성능을 개선하는 것을 목표로 합니다. 기존 데이터의 활용도를 극대화하여 새로운 데이터 수집 없이 모델의 성능을 향상시키는 방법론을 제안합니다.#Review#Language Model Pretraining#Synthetic Data#Inter-document Correlation#Data Augmentation#Transformer#Bootstrapping#Concept Learning2025년 9월 23일댓글 수 로딩 중
[논문리뷰] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement LearningWebSailor-V2는 오픈소스 웹 에이전트의 역량을 혁신적으로 향상시켜, 독점 시스템과의 성능 격차를 줄이는 것을 목표로 합니다. 특히 데이터 구성 및 확장 가능한 강화 학습(RL) 훈련의 두 가지 주요 과제를 해결하여 복잡한 웹 환경에서 고급 추론 및 도구 사용 능력을 갖춘 에이전트를 개발하고자 합니다.#Review#Web Agents#Reinforcement Learning#Synthetic Data#Knowledge Graphs#LLMs#Supervised Fine-Tuning#Sim-to-Real Transfer#Agentic AI2025년 9월 17일댓글 수 로딩 중
[논문리뷰] <think> So let's replace this phrase with insult... </think> Lessons learned from generation of toxic texts with LLMs본 연구는 대규모 언어 모델(LLM)이 생성한 독성 텍스트가 텍스트 정화(detoxification) 모델 훈련을 위한 인간 주석 데이터를 효과적으로 대체할 수 있는지 평가하는 것을 목표로 합니다.#Review#Toxic Text Generation#LLMs#Text Detoxification#Lexical Diversity#Synthetic Data#Human Annotation#Style Transfer2025년 9월 11일댓글 수 로딩 중
[논문리뷰] Reverse-Engineered Reasoning for Open-Ended Generation개방형(open-ended) 및 창의적 생성과 같이 검증 불가능한 도메인에서 대규모 언어 모델(LLM)에 깊이 있는 추론 능력 을 부여하는 것이 이 연구의 핵심 목표입니다. 기존의 강화 학습(RL) 및 증류(distillation) 방식의 한계, 즉 명확한 보상 신호 부재 및 높은 비용 문제를 극복하고자 합니다.#Review#Deep Reasoning#Open-Ended Generation#Reverse-Engineered Reasoning (REER)#LLMs#Synthetic Data#Iterative Refinement#Perplexity Minimization#DeepWriting-20K2025년 9월 9일댓글 수 로딩 중
[논문리뷰] LuxDiT: Lighting Estimation with Video Diffusion Transformer논문은 단일 이미지 또는 비디오로부터 고품질의 HDR 환경 맵 을 추정하는 오랜 난제를 해결하고자 합니다. 이는 실측 HDR 환경 맵의 희소성, 간접 시각 단서에 대한 의존성, 전역적 컨텍스트 추론 및 고동적 범위(HDR) 출력 복구의 어려움으로 인해 발생합니다.#Review#Lighting Estimation#HDR Environment Map#Diffusion Models#Video Transformer#Low-Rank Adaptation#Generative Models#Synthetic Data2025년 9월 8일댓글 수 로딩 중
[논문리뷰] ROSE: Remove Objects with Side Effects in Videos기존 비디오 객체 제거 모델들이 객체의 그림자, 반사, 조명 변화 등 '측면 효과(side effects)' 를 효과적으로 제거하지 못하는 문제를 해결하는 것이 목표입니다.#Review#Video Object Removal#Side Effects#3D Rendering#Diffusion Transformer#Video Inpainting#Synthetic Data#Difference Mask2025년 8월 29일댓글 수 로딩 중
[논문리뷰] Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation본 논문은 GPT-4o 로 생성된 합성 이미지 데이터를 활용하여 오픈소스 이미지 생성 모델이 겪는 성능 격차를 해소하는 것을 목표로 합니다.#Review#Synthetic Data#Image Generation#GPT-4o#Multimodal Models#Instruction Following#Surreal Image Generation#Dataset#Benchmarking2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Evaluating, Synthesizing, and Enhancing for Customer Support Conversation본 논문은 고객 지원 대화(Customer Support Conversation, CSC) 분야에서 전략적 지침과 고품질 데이터의 부족 문제를 해결하고자 합니다.#Review#Customer Support#Dialogue Generation#Large Language Models#Role-Playing#COPC Framework#Synthetic Data#Strategy Prediction#Empathetic AI2025년 8월 8일댓글 수 로딩 중
[논문리뷰] Tongyi DeepResearch Technical Report본 논문은 장기적인 정보 탐색 및 심층 연구 태스크를 위해 설계된 에이전트형 대규모 언어 모델인 Tongyi DeepResearch 를 소개하고 오픈소스화하는 것을 목표로 합니다.#Review#Agentic LLM#Deep Research#Information Seeking#Reinforcement Learning#Synthetic Data#Context Management#Tool Use#Open-source AI2025년 10월 29일댓글 수 로딩 중
[논문리뷰] Repurposing Synthetic Data for Fine-grained Search Agent Supervision본 논문은 LLM 기반 검색 에이전트 훈련 시 Group Relative Policy Optimization (GRPO) 방법론의 한계인 희소한(sparse) 보상 문제를 해결하는 것을 목표로 합니다.#Review#Search Agents#LLM#Reinforcement Learning#Synthetic Data#Reward Shaping#Entity-aware Reward#Policy Optimization#Knowledge-intensive Tasks2025년 10월 29일댓글 수 로딩 중
[논문리뷰] LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens대규모 추론 모델(LRM)의 '사고 토큰' 생성이 기계 번역(MT) 성능에 미치는 영향을 탐구하고, 표준 CoT 증류 방식과 MT 특정 모듈식 프롬프트 전략을 비교하여 어떤 형태의 중간 정보가 MT에 유익한지 밝히는 것을 목표로 합니다.#Review#Large Language Models (LLMs)#Machine Translation (MT)#Chain-of-Thought (CoT)#Knowledge Distillation#Fine-tuning#Prompt Engineering#Synthetic Data2025년 10월 15일댓글 수 로딩 중
[논문리뷰] KORMo: Korean Open Reasoning Model for Everyone본 논문은 한국어와 영어를 지원하는 최초의 완전 공개(Fully Open) 이중 언어 대규모 언어 모델(LLM) 인 KORMo 를 구축하는 것을 목표로 합니다.#Review#Large Language Model#Korean#Bilingual#Synthetic Data#Fully Open Model#Tokenizer#Reasoning#Pretraining#Instruction Tuning2025년 10월 13일댓글 수 로딩 중
[논문리뷰] QueST: Incentivizing LLMs to Generate Difficult Problems본 논문은 LLM 학습에 있어 인간이 주석을 단 고품질의 어려운 코딩 문제 데이터셋이 부족하여 확장성이 제한되는 문제를 해결하고자 합니다. 특히, LLM 생성기가 더욱 도전적인 경쟁 프로그래밍 문제를 효과적으로 생성하도록 유도하는 새로운 프레임워크인 QueST 를 제안합니다.#Review#LLM#Problem Generation#Competitive Programming#Synthetic Data#Difficulty Estimation#Rejection Fine-tuning#Graph Sampling2025년 10월 21일댓글 수 로딩 중
[논문리뷰] PICABench: How Far Are We from Physically Realistic Image Editing?이미지 편집 모델이 지시 사항을 따르는 것을 넘어, 물리 법칙을 준수하는 현실적인 편집 결과 를 얼마나 잘 생성하는지 평가하고 개선하는 것을 목표로 합니다. 그림자, 반사, 변형, 상태 전환과 같은 물리적 효과의 정확한 렌더링을 간과하는 기존 벤치마크의 한계를 극복하고자 합니다.#Review#Image Editing#Physical Realism#Benchmark#VLM-as-a-Judge#Synthetic Data#Physics-Aware AI#Diffusion Models#Evaluation Metrics2025년 10월 21일댓글 수 로딩 중
[논문리뷰] Train a Unified Multimodal Data Quality Classifier with Synthetic Data멀티모달 대규모 언어 모델(MLLM) 사전 학습에 사용되는 이미지-텍스트 캡션 및 인터리브된 문서 데이터의 고품질 필터링 방법이 미흡하다는 문제를 해결하고자 합니다.#Review#Multimodal Data Quality#MLLM#Synthetic Data#Data Filtering#Image-Text Captioning#Interleaved Document Analysis#Pre-training2025년 10월 20일댓글 수 로딩 중
[논문리뷰] Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents본 논문은 낮은 지연 시간, 강력한 프라이버시 보장 및 제한된 연결성 환경에서 견고한 동작을 요구하는 온디바이스 GUI 에이전트 개발의 과제를 해결하고자 합니다.#Review#GUI Agents#On-Device AI#Multimodal LLM#GUI Grounding#GUI Navigation#Reinforcement Learning#Supervised Fine-tuning#Synthetic Data2025년 10월 1일댓글 수 로딩 중