#Data Synthesis

42개의 포스트

[논문리뷰] Advancing WordArt-Oriented Scene Text Recognition: Datasets and Methods

본 논문은 예술적 텍스트(WordArt)가 가진 고도의 시각적 스타일화와 불규칙한 레이아웃으로 인해 기존 STR 모델들이 겪는 성능 한계를 해결하고자 합니다.

#Review #WordArt #Scene Text Recognition #Data Synthesis #Arbitrary-Shaped Input #Autoregressive Decoder #WATERec #WATER-S

2026년 6월 24일

[논문리뷰] RODS: Reward-Driven Online Data Synthesis for Multi-Turn Tool-Use Agents

본 논문은 Multi-turn Tool-Use 에이전트 학습 시 발생하는 데이터 부족 및 정보 밀도 감소 문제를 해결하고자 합니다.

#Review #Multi-turn Tool-Use #Reinforcement Learning #Data Synthesis #Gradient Variance #Capability Boundary #Agentic RL #Replay Buffer

2026년 6월 17일

[논문리뷰] Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

본 논문은 기존의 Multimodal Deep Search Agent들이 실제 환경의 복잡한 시각 정보를 효과적으로 다루지 못하는 'Visual Blindness' 문제를 해결하고자 합니다.

#Review #Multimodal Large Language Models #Agentic Search #Active Visual Reasoning #Data Synthesis #Visual-native #Multi-hop Reasoning

2026년 6월 16일

[논문리뷰] Exploring Autonomous Agentic Data Engineering for Model Specialization

본 논문은 LLM이 인간의 설계 없이 데이터 엔지니어링 파이프라인을 자율적으로 수행하여 모델 특화(Model Specialization)를 달성할 수 있는지에 대한 근본적인 의문을 해결하고자 한다 .

#Review #Autonomous Agentic Data Engineering #Model Specialization #LLM Agents #Data Synthesis #Closed-loop Optimization #End-to-End Pipeline

2026년 5월 31일

[논문리뷰] Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning

본 연구는 UMM 학습 시 이해와 생성 작업 간에 발생하는 아키텍처적 충돌과 이로 인한 성능 트레이드오프 문제를 해결하고자 한다. 기존의 다중 작업 학습(Multi-task learning)은 복잡한 파이프라인과 데이터 균형 조정 기법을 필요로 하며, 종종 한 작업의 성능 향상이 다른 작업의 저하를 초래하는 한계가 있다.

#Review #Unified Multimodal Models #Intelligent Image Editing #Instruction Tuning #Data Synthesis #Multi-task Learning #Reasoning-intensive

2026년 5월 20일

[논문리뷰] OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

본 연구는 고성능 search agent 개발이 자본과 컴퓨팅 자원이 막대한 기업 주도의 CPT+SFT+RL 파이프라인에 종속된 현실을 비판적으로 접근합니다. 기존의 복잡한 학습 방식은 학계의 진입 장벽을 높이고 연구 생태계의 폐쇄성을 야기합니다.

#Review #Search Agent #SFT #ReAct #Data Quality #Long-horizon Reasoning #Data Synthesis

2026년 5월 5일

[논문리뷰] Marco DeepResearch: Unlocking Efficient Deep Research Agents via Verification-Centric Design

최근 Deep Research 분야는 급격히 발전했으나, 기존 에이전트 시스템은 QA 데이터 합성, 궤적 생성, 추론 단계에서 명시적인 검증 기법이 부재하다는 치명적인 한계를 가진다. 이로 인해 초기 단계의 오류가 하위 단계로 전파되어 전체 성능을 크게 저하시키는 문제가 발생한다 .

#Review #Deep Research #Agentic Search #Verification-Centric Design #Data Synthesis #Test-time Scaling #ReAct #Multi-agent Systems

2026년 3월 30일

[논문리뷰] HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning

Vision-language Models (VLMs)는 fine-grained하고 multi-step의 복잡한 시각-언어 추론 Task에서 여전히 어려움을 겪고 있다.

#Review #Vision-Language Models #Multi-Hop Reasoning #Data Synthesis #Reinforcement Learning with Verifiable Rewards #Chain-of-Thought #Generalizable Reasoning #Perception-level Hops #Instance-chain Hops

2026년 3월 22일

[논문리뷰] InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

통합 멀티모달 모델(UMM)이 강한 의미론적 이해와 강력한 생성 능력 사이에서 겪는 본질적인 상충 관계를 해결하고자 합니다. 이 논문은 InternVL-U 라는 경량의 4B 매개변수 UMM을 제안하여, 이해, 추론, 생성, 편집 능력을 하나의 통합 프레임워크 내에서 민주화하는 것을 목표로 합니다.

#Review #Unified Multimodal Models #Multimodal Large Language Model #Image Generation #Image Editing #Chain-of-Thought #Data Synthesis #Low-parameter Models

2026년 3월 10일

[논문리뷰] From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

본 논문은 다중모드 대규모 추론 모델(MLRMs) 의 콜드-스타트 초기화(cold-start initialization) 단계의 메커니즘을 분석하고 최적화하여, 모델의 다중모드 추론 성능과 시각적 기반(visual grounding) 능력을 향상시키는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Cold-Start Initialization #Attention Mechanism #Visual Grounding #Large Multimodal Models (LMMs)#Reinforcement Learning (RLHF)#Data Synthesis #Visual Attention Score (VAS)

2026년 3월 9일

[논문리뷰] CoVe: Training Interactive Tool-Use Agents via Constraint-Guided Verification

본 논문은 실제 사용자 요구가 복잡하고 모호함에도 불구하고, 에이전트가 정확한 도구 실행을 통해 이를 충족해야 하는 다중 턴 대화형 도구 사용 에이전트 개발의 근본적인 과제를 해결하고자 합니다.

#Review #Tool-Use Agents #Multi-turn Interaction #Data Synthesis #Constraint-Guided Verification #Large Language Models #Supervised Fine-tuning #Reinforcement Learning

2026년 3월 2일

[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.

#Review #Agentic AI #Long-Horizon Search #Parallel Execution #Data Synthesis #Reinforcement Learning #Generalization #Efficiency #LLM Agent

2026년 2월 26일

[논문리뷰] StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

수중 스테레오 깊이 추정에서 발생하는 도메인 시프트(domain shift) 문제를 해결하고, 특히 대규모 깊이 차이(large-disparity) 및 텍스처 없는(textureless) 영역에서의 기존 GRU 기반 반복 정제 방식의 효율성 및 정확도 한계 를 극복하는 것을 목표로 합니다.

#Review #Underwater Depth Estimation #Stereo Matching #State Space Model #Mamba Architecture #ConvSS2D #Data Synthesis #LoRA #Zero-shot Learning #Robotics

2026년 2월 19일

[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents

본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.

#Review #LLM Agents #Tool-use #Scientific Reasoning #Benchmarking #Interactive Environment #Data Synthesis #Error Recovery #Multi-step Tasks

2026년 2월 15일

[논문리뷰] Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs

대규모 언어 모델(LLM)의 후처리 훈련에서 데이터 다양성이 중요함에도 불구하고, 기존 텍스트 기반 또는 일반 임베딩 기반 다양성 지표는 태스크 관련 특징을 제대로 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Data Synthesis #LLMs #Feature Space #Sparse Autoencoders #Diversity Metrics #Post-Training #Instruction Tuning #Feature Activation Coverage

2026년 2월 15일

[논문리뷰] daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently

본 논문은 대규모 언어 모델(LLM)이 단기 작업에서 뛰어난 성능을 보임에도 불구하고, 실제와 같은 복잡한 장기 에이전트 워크플로우로 확장하는 데 필요한 고품질 훈련 데이터 부족 문제를 해결하고자 합니다.

#Review #Long-Horizon Agency #Data Synthesis #Pull Request Chains #Software Evolution #LLM Training #Agentic AI #Self-Distillation #Code Generation

2026년 2월 3일

[논문리뷰] OmegaUse: Building a General-Purpose GUI Agent for Autonomous Task Execution

본 논문은 모바일 및 데스크톱 환경 모두에서 자율적인 태스크 실행을 위한 범용 GUI(Graphical User Interface) 에이전트 모델인 OmegaUse 를 구축하는 것을 목표로 합니다.

#Review #GUI Agent #Multimodal AI #MoE #Data Synthesis #Reinforcement Learning #Cross-Platform #Benchmarking

2026년 1월 28일

[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document Extraction

기존 VLM이 태국어와 같은 저자원 언어의 복잡한 스크립트 특성(비라틴 문자, 명시적 단어 경계 부재, 스택형 발음 구별 부호) 및 비정형 문서 레이아웃으로 인해 겪는 한계를 해결하는 것입니다.

#Review #Vision-Language Model #OCR #Thai Language Processing #Document Understanding #Low-Resource Language #Data Synthesis #Fine-tuning #Layout Analysis

2026년 1월 21일

[논문리뷰] DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

비디오 얼굴 스와핑(VFS)에서 기존 이미지 얼굴 스와핑(IFS) 모델 대비 신원 유사성 및 속성 보존 능력의 격차를 해소하고, 시간적 일관성 문제를 해결하는 것이 주된 목표입니다.

#Review #Video Face Swapping #Diffusion Transformer #Identity Preservation #Temporal Consistency #Modality-Aware Conditioning #Reinforcement Learning #Data Synthesis

2026년 1월 5일

[논문리뷰] DreamOmni3: Scribble-based Editing and Generation

본 논문은 통합 생성 및 편집 모델에서 텍스트 프롬프트의 한계, 즉 사용자의 의도된 편집 위치 및 미세한 시각적 세부 사항을 정확히 포착하지 못하는 문제를 해결하고자 합니다.

#Review #Image Editing #Image Generation #Scribble-based Control #Multimodal AI #Diffusion Models #Data Synthesis #Human-Computer Interaction #Instruction-based Editing

2025년 12월 30일

[논문리뷰] Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale

본 논문은 시각적 수학을 넘어선 복합적인 추론 구조를 갖춘 대규모, 비전 중심 추론 데이터셋 의 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Visual Reasoning #Compositional AI #Vision-Language Models #Data Synthesis #Chain-of-Thought #Reinforcement Learning #Multimodal Transfer #Grounded Reasoning

2025년 11월 10일

[논문리뷰] V-Thinker: Interactive Thinking with Images

본 논문은 대규모 멀티모달 모델(LMM)이 긴 추론 과정에서 시각적 정보로부터 벗어나 환각을 일으키는 문제를 해결하고자 합니다.

#Review #Large Multimodal Models #Interactive Reasoning #Vision-Centric Thinking #Reinforcement Learning #Data Synthesis #Visual Tools #Curriculum Learning #Multimodal AI

2025년 11월 9일

[논문리뷰] Towards Universal Video Retrieval: Generalizing Video Embedding via Synthesized Multimodal Pyramid Curriculum

기존 비디오 리트리벌 패러다임이 좁은 벤치마크, 제한된 데이터, 단일 태스크 훈련으로 인해 일반화 능력이 저해되는 문제를 해결하는 것입니다. 이 연구는 다차원 진단 평가 를 통해 범용 비디오 임베딩 의 진정한 일반화 능력을 정의하고 달성하는 것을 목표로 합니다.

#Review #Video Retrieval #Multimodal Embedding #Data Synthesis #Curriculum Learning #Zero-shot Generalization #Benchmark Design #MLLM #Video-Text Retrieval

2025년 11월 9일

[논문리뷰] WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents

본 논문은 기존의 심층 연구(deep-research) 에이전트들이 겪는 컨텍스트 질식(context suffocation) 및 노이즈 오염(noise contamination) 문제로 인한 추론 능력의 한계를 해결하는 것을 목표로 합니다.

#Review #Agentic AI #Deep Research #Iterative Reasoning #Long-Horizon Tasks #Context Management #Data Synthesis #Tool-Augmented LLMs #Markov Decision Process

2025년 9월 17일

[논문리뷰] Scaling Agents via Continual Pre-training

본 논문은 기존의 에이전트 LLM 훈련 방법론(SFT, RL)이 복잡한 에이전트 태스크에서, 특히 오픈소스 구현체에서 저조한 성능을 보이는 문제를 해결하고자 합니다. 이는 견고한 에이전트 파운데이션 모델의 부재로 인해 훈련 후 다양한 에이전트 행동 학습과 정렬이 동시에 이루어지면서 발생하는 최적화 충돌 때문입니다.

#Review #Agentic LLMs #Continual Pre-training #Deep Research Agents #Tool Use #Multi-step Reasoning #Data Synthesis #Scaling Laws

2025년 9월 17일

[논문리뷰] Open Data Synthesis For Deep Research

본 논문은 기존 벤치마크들이 '심층 연구(Deep Research)' 작업을 위한 충분한 구조적 깊이를 제공하지 못하는 한계를 해결하고자 합니다. 특히, 복잡한 질문을 하위 문제로 분해하고, 다단계 추론을 조율하며, 다양한 출처에서 증거를 합성해야 하는 작업에 초점을 맞춥니다.

#Review #Data Synthesis #Deep Research #Hierarchical Constraint Satisfaction Problems #Large Language Models #Agentic AI #Reinforcement Learning #Question Answering

2025년 9월 4일

[논문리뷰] mSCoRe: a Multilingual and Scalable Benchmark for Skill-based Commonsense Reasoning

본 논문은 기존 상식 추론 벤치마크들이 다국어 및 다문화 환경에서 LLM의 인간 추론 능력 활용 방식을 체계적으로 평가하고, 태스크 난이도를 조절하는 데 한계가 있음을 지적합니다.

#Review #Multilingual Benchmark #Commonsense Reasoning #LLM Evaluation #Reasoning Taxonomy #Benchmark Scaling #Data Synthesis #Cultural Nuances

2025년 8월 21일

[논문리뷰] Beyond Ten Turns: Unlocking Long-Horizon Agentic Search with Large-Scale Asynchronous RL

본 논문은 기존 오픈소스 LLM 기반 에이전트의 '검색 인텔리전스'가 전문가 수준에 미치지 못하며, 모호한 질의 해결, 정확한 검색 생성, 결과 분석 및 심층 탐색 능력에서 한계를 보이는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #LLM Agents #Agentic Search #Asynchronous RL #Long-Horizon Planning #Tool Use #Data Synthesis

2025년 8월 13일

[논문리뷰] ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

기존 패시지 랭킹 모델들이 추론 집약적(reasoning-intensive) 훈련 데이터 부족 으로 인해 복잡한 검색 시나리오에서 낮은 성능을 보이는 문제를 해결하는 것이 목표입니다.

#Review #Passage Ranking #Reasoning Models #Large Language Models #Data Synthesis #Reinforcement Learning #Listwise Reranking #Information Retrieval

2025년 8월 12일

[논문리뷰] Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

본 논문은 형식 증명 자동화(Automated Theorem Proving, ATP) 분야에서 기존의 대규모 모델 및 연산량 의존성을 극복하고, 더 적은 자원으로도 최첨단 성능을 달성하는 새로운 오픈소스 언어 모델 시리즈인 Goedel-Prover-V2 를 개발하는 것을 목표로 합니다.

#Review #Automated Theorem Proving #Formal Verification #Language Models #Self-Correction #Data Synthesis #Reinforcement Learning #Model Averaging #Lean

2025년 8월 6일

[논문리뷰] MedVLSynther: Synthesizing High-Quality Visual Question Answering from Medical Documents with Generator-Verifier LMMs

의료 VQA 시스템 훈련에 필요한 대규모, 공개 활용 가능한 고품질 데이터셋의 부족 문제를 해결하는 것입니다. 이 연구는 공개된 생체의학 문헌에서 이미지와 텍스트를 활용하여 고품질의 다중 선택 의료 VQA 문항 을 자동으로 합성하는 투명하고 재현 가능한 파이프라인 을 구축하는 것을 목표로 합니다.

#Review #Medical VQA #Large Multimodal Models (LMMs)#Data Synthesis #Generator-Verifier Framework #Rubric-Guided #Reinforcement Learning (RL)#Context-Aware

2025년 10월 31일

[논문리뷰] EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

본 논문은 EHR(Electronic Health Records) 분석에서 LLM(Large Language Models) 의 제한적인 능력, 특히 좁은 태스크 범위와 EHR 중심 추론 능력 부족 문제를 해결하고자 합니다.

#Review #Electronic Health Records #Large Language Models #Reasoning Enhancement #Instruction Tuning #Reinforcement Learning #Data Synthesis #Medical AI #Clinical Decision Support

2025년 10월 31일

[논문리뷰] JanusCoder: Towards a Foundational Visual-Programmatic Interface for Code Intelligence

본 논문은 프로그램이 생성하는 풍부한 시각적 출력까지 포함하여 텍스트 기반 소스 코드 를 넘어 확장되는 신경 코드 인텔리전스 의 범위를 다루는 것을 목표로 합니다. 특히, 시각적 내용 생성, 편집 및 해석을 위한 통합된 시각-프로그래밍 인터페이스 를 구축하여 멀티모달 코드 인텔리전스 를 발전시키는 데 중점을 둡니다.

#Review #Multimodal Code Intelligence #Visual-Programmatic Interface #Code Generation #Data Synthesis #Large Language Models #Visualizations #Web UI #Animation

2025년 10월 30일

[논문리뷰] FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling

본 논문은 대규모 언어 모델(LLM)의 복잡한 멀티턴 함수 호출(Multi-Turn Function Calling) 능력 개발을 위한 고품질 학습 데이터 생성의 어려움을 해결하고자 합니다.

#Review #Function Calling #Multi-Turn Interaction #Large Language Models (LLMs)#Data Synthesis #Agentic AI #Tool Use #Chain-of-Thought (CoT)#Reinforcement Learning

2025년 10월 29일

[논문리뷰] AgentFrontier: Expanding the Capability Frontier of LLM Agents with ZPD-Guided Data Synthesis

본 논문은 대규모 언어 모델(LLM) 에이전트의 고급 추론 능력 을 확장하기 위해, 교육 이론인 근접 발달 영역(ZPD) 에서 영감을 받은 새로운 데이터 합성 접근 방식을 제안합니다.

#Review #LLM Agents #Data Synthesis #Zone of Proximal Development (ZPD)#Complex Reasoning #Tool Use #Automated Benchmarking #Agentic AI #Rejection Sampling Fine-Tuning

2025년 10월 29일

[논문리뷰] LimRank: Less is More for Reasoning-Intensive Information Reranking

본 논문은 계산 비용이 높은 대규모 파인튜닝 없이, 최소한의 고품질 감독으로도 LLM 을 추론 집약적 정보 리랭킹(reasoning-intensive information reranking) 태스크에 효과적으로 적용하는 것을 목표로 합니다.

#Review #Information Reranking #Large Language Models #Data Synthesis #Reasoning-Intensive Retrieval #Low-Resource Learning #Data Efficiency #Instruction Following

2025년 10월 28일

[논문리뷰] PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

제한된 실제 비디오 데이터로부터 변형 가능한 물체의 물리 일관성 있는 동역학 모델을 학습하는 데 따르는 데이터 부족 문제를 해결하고, 정확하면서도 빠른 추론이 가능한 월드 모델을 구축하는 것을 목표로 합니다. 특히, 시공간적으로 변이하는 물리적 특성을 가진 물체에 대한 모델링을 중점적으로 다룹니다.

#Review #World Models #Deformable Objects #Physics Simulation #GNN #Digital Twin #Data Synthesis #Real-to-Sim #Physics-Aware Learning

2025년 10월 27일

[논문리뷰] VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

본 연구는 GUI(Graphical User Interface) 에이전트 훈련에 필요한 대규모의 수동 주석된 상호작용 데이터 확보의 어려움을 해결하고자 합니다.

#Review #GUI Agents #Video Pretraining #Inverse Dynamics #Action Recognition #Computer Use Automation #Data Synthesis #Multimodal Learning

2025년 10월 23일

[논문리뷰] LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

대규모 언어 모델(LLMs)이 긴 컨텍스트에 대한 고급 추론 능력을 갖추도록 하는 것이 목표입니다. 기존 RL 방법론들이 주로 짧은 컨텍스트 추론에 초점을 맞추고 있으며, 특히 높은 난이도의 긴 컨텍스트 RL 데이터가 부족하다는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Long Context Reasoning #Large Language Models #Multi-hop QA #Data Synthesis #Retrieval-Augmented Generation #Chain-of-Thought

2025년 10월 23일

[논문리뷰] EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning

본 논문은 환각(hallucination) 문제와 부실한 검증 아티팩트로 인해 신뢰성 있는 합성 검증 데이터를 생성하기 어렵다는 문제를 해결하고자 합니다.

#Review #Verifiable Learning #Data Synthesis #Evolutionary Algorithm #Large Language Models #Reinforcement Learning #Model Distillation #Test Generation

2025년 10월 22일

[논문리뷰] Explore to Evolve: Scaling Evolved Aggregation Logic via Proactive Online Exploration for Deep Research Agents

기존 웹 에이전트 시스템들이 정보 탐색 기능에만 중점을 두고 정보 집계 능력을 간과하여 심층적인 연구 결과 생성을 제한하는 문제를 해결하고자 합니다.

#Review #Web Agents #Information Aggregation #Data Synthesis #Online Exploration #Foundation Models #Multi-hop QA #Deep Research

2025년 10월 20일

[논문리뷰] InfoAgent: Advancing Autonomous Information-Seeking Agents

본 논문은 장기적인 정보 탐색 및 심층 추론 능력을 갖춘 대규모 언어 모델(LLM) 에이전트 를 구축하는 데 있어 데이터 합성 및 효율적인 인터랙티브 환경 구축의 병목 현상을 해결하는 것을 목표로 합니다.

#Review #LLM Agents #Information Seeking #Reinforcement Learning #Data Synthesis #Web Search Tools #Tool Use #Deep Research Agents

2025년 10월 1일