#Data Curation

62개의 포스트

[논문리뷰] Boogu-Image-0.1: Boosting Open-Source Unified Multimodal Understanding and Generation

본 연구는 기존 오픈소스 생성 모델이 상업적 frontier 모델 대비 복잡한 의도를 해석하는 Understanding 능력이 부족하다는 점을 해결하고자 합니다.

#Review #Unified Multimodal #Text-to-Image #Agentic Inference #Data Curation #Diffusion Transformer #Instruction-Driven Generation

2026년 7월 15일

[논문리뷰] DataComp-VLM: Improved Open Datasets for Vision-Language Models

본 논문은 현대의 Autoregressive VLM 학습에서 데이터 큐레이션 전략이 모델 성능을 결정짓는 핵심 요소임에도 불구하고, 이에 대한 표준화된 벤치마크가 부족하다는 점을 해결하고자 합니다.

#Review #Vision-Language Models #Data Curation #Benchmark #Instruction-Tuning #Data Mixing #Scaling Laws #Pretraining

2026년 7월 5일

[논문리뷰] Autodata: An agentic data scientist to create high quality synthetic data

본 연구는 고품질 데이터의 부족 문제를 해결하고, 인간의 개입을 최소화하면서 데이터 생성 파이프라인을 자동화하는 것을 목표로 합니다. 기존의 데이터 생성 방식은 데이터의 다양성이 부족하거나 품질 제어가 어렵다는 한계를 지니고 있으며, 단순히 양적인 데이터 확대만으로는 모델 성능의 비약적인 향상을 이끌어내기 어렵습니다.

#Review #Synthetic Data #Agentic Workflow #LLM #Data Curation #Model Training #Automated Discovery

2026년 6월 24일

[논문리뷰] OpenThoughts-Agent: Data Recipes for Agentic Models

본 논문은 에이전트용 모델을 학습시키기 위한 데이터 큐레이션(Data Curation) 방법론이 공개적으로 거의 알려져 있지 않은 문제를 해결하고자 한다.

#Review #Agentic Models #Data Curation #Supervised Fine-Tuning #Reinforcement Learning #Scaling Laws #Agentic Benchmarks

2026년 6월 23일

[논문리뷰] LIMMT: Less is More for Motion Tracking

본 논문은 휴머노이드 모션 트래킹 학습에서 무분별한 데이터 확장(Data Scaling)이 오히려 성능 저하를 초래한다는 문제점을 지적합니다.

#Review #Motion Tracking #Humanoid Robot #Data-Centric AI #Physics-based Simulation #Imitation Learning #Data Curation

2026년 6월 7일

[논문리뷰] Is Position Bias in Dense Retrievers Built In-or Learned from Data?

본 논문은 Dense Retrievers가 문서 내 정보 위치에 따라 성능이 크게 변하는 Position Bias 문제를 해결하고자 한다. 기존 연구들은 이러한 편향의 원인을 모델의 아키텍처나 사전 학습(pretraining) 방식에서 찾으려 했으나, 이들만으로는 체계적인 편향 방향을 완벽히 설명하지 못한다.

#Review #Dense Retrievers #Position Bias #Fine-tuning #Position-Controlled Data #Retrieval-Augmented Generation #Positional Sensitivity #Data Curation

2026년 5월 28일

[논문리뷰] FrameSkip: Learning from Fewer but More Informative Frames in VLA Training

본 논문은 기존 VLA 모델 학습 과정에서 무분별하게 모든 프레임을 동일한 비중으로 사용하는 'Temporal supervision imbalance' 문제를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA)#Robot Manipulation #Frame Selection #Temporal Supervision #Data Curation #Policy Learning #Embodied AI

2026년 5월 13일

[논문리뷰] MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

본 논문은 기존 스타일 전이 기법들이 self-supervised 훈련 방식의 한계로 인해 스타일과 콘텐츠를 효과적으로 분리하지 못하고, 데이터셋의 품질 및 다양성 부족으로 스타일 전이 성능이 제한되는 문제를 해결하고자 한다.

#Review #MegaStyle #Style Transfer #Data Curation #Diffusion Transformer #Contrastive Learning

2026년 4월 9일

[논문리뷰] Watch Before You Answer: Learning from Visually Grounded Post-Training

본 논문은 오직 Visually Grounded 질문만을 사용하여 모델을 post-training하는 VidGround 프레임워크를 제안한다. 저자들은 GPT-5-mini와 같은 강력한 언어 모델을 사용하여 텍스트만으로 답변 가능한 TA 질문을 필터링하고, 나머지 VG 질문만을 학습 데이터로 선별하였다.

#Review #Vision-Language Models #Video Understanding #Post-Training #Linguistic Bias #Reinforcement Learning #Data Curation #Visually Grounded Reasoning

2026년 4월 7일

[논문리뷰] Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation

Diffusion models과 autoregressive models의 발전으로 T2I generation 및 image editing task에서 상당한 진전이 있었으나, 이러한 모델들의 성능 향상을 위한 RL 기반 접근 방식은 reward model 의 신뢰성 문제에 직면해 있습니다.

#Review #Reinforcement Learning #Reward Modeling #Image Editing #Image Generation #MLLM #Data Curation #Fidelity #Instruction Following

2026년 3월 12일

[논문리뷰] Phi-4-reasoning-vision-15B Technical Report

본 논문은 추론 능력, 효율성, 학습 데이터 요구사항의 균형을 맞춘 소형 오픈소스 멀티모달 추론 모델인 Phi-4-reasoning-vision-15B 를 개발하는 것을 목표로 합니다.

#Review #Multimodal LLMs #Efficient AI #Reasoning Models #Vision-Language Models #Data Curation #Mid-Fusion #High-Resolution Vision #Small Language Models

2026년 3월 4일

[논문리뷰] GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

본 논문은 기존 오픈소스 GUI 에이전트들이 긴 호라이즌 탐색(long-horizon navigation) 태스크 에서 상용 시스템에 비해 뒤쳐지는 문제를 해결하고자 합니다.

#Review #GUI Agents #Reinforcement Learning #Supervised Fine-tuning #Visual Grounding #Long-Horizon Tasks #Partial Verifiability #KL Regularization #Data Curation

2026년 2월 25일

[논문리뷰] DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

기존 멀티모달 RLVR(Reinforcement Learning with Verifiable Rewards) 학습 데이터셋의 제한적인 다양성, 커버리지, 일반화 능력을 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Mathematical Dataset #RLVR #Data Curation #Visual Diversity #K12 Mathematics #Large Multimodal Models

2026년 2월 22일

[논문리뷰] ClinAlign: Scaling Healthcare Alignment from Clinician Preference

대규모 언어 모델(LLM)을 의료 분야에서 의사의 세밀한 선호도 및 전문 표준에 맞춰 정렬하는 문제를 해결하는 것이 목표입니다. 기존 방법론의 일반적인 목표와 신뢰할 수 없는 자동 평가자의 한계를 극복하고, 확장 가능한 방식으로 임상 정렬(clinical alignment)을 달성하고자 합니다.

#Review #Healthcare AI #LLM Alignment #Clinician Preference #Rubric-based RLHF #Medical LLMs #Data Curation #HealthBench #Principle-based Supervision

2026년 2월 17일

[논문리뷰] FireRed-Image-Edit-1.0 Techinical Report

본 논문은 텍스트 지시 기반 이미지 편집(instruction-based image editing) 분야에서 CNN 의존성을 넘어선 새로운 접근 방식 을 제시하며, 데이터 큐레이션, 모델 아키텍처, 훈련 방법론 및 평가 설계의 체계적인 최적화를 통해 최고 수준의 성능 달성을 목표로 합니다.

#Review #Image Editing #Diffusion Transformer #Instruction-based Editing #Data Curation #Reinforcement Learning #Multimodal Models #REDEdit-Bench #Generative AI

2026년 2월 16일

[논문리뷰] Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

이 연구는 기존 비디오-명령어 데이터가 불완전하고 세분화된 정보 및 신뢰성 있는 주석이 부족하여 범용적인 비디오 이해 MLLM 의 성능을 제약하는 문제를 해결하고자 합니다.

#Review #Video Understanding #Multimodal Large Language Models (MLLMs)#Instruction Tuning #Data Curation #Attribute-Structured Data #Quality Verification #Temporal Grounding #Video Captioning

2026년 2월 15일

[논문리뷰] ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning

본 논문은 파편화된 데이터, 불일치하는 표현, 그리고 학습 목표의 불균형으로 인해 다형성 로봇 하드웨어에 걸쳐 범용적인 임베디드 에이전트를 구축하는 데 따르는 근본적인 문제를 해결하고자 합니다.

#Review #Robotic Manipulation #Vision-Language-Action (VLA)#Foundation Models #Action Manifold Learning #Diffusion Transformers #Data Curation #Embodied AI

2026년 2월 15일

[논문리뷰] DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

논문은 LLM 적응을 위한 데이터 레시피 설계가 여전히 수작업적이고 노동 집약적이라는 문제에 주목합니다.

#Review #LLM Adaptation #Reinforcement Learning #Data Curation #Data Pipelines #Data Recipes #Data Verifier #Data-centric AI

2026년 2월 11일

[논문리뷰] MOVA: Towards Scalable and Synchronized Video-Audio Generation

기존 비디오 생성 모델에서 간과되던 오디오 요소를 통합하여, 고품질의 동기화된 비디오-오디오 콘텐츠를 생성 하는 오픈 소스 모델 MOVA 를 개발하는 것이 목표입니다.

#Review #Video-Audio Generation #Diffusion Transformer #Multimodal AI #Lip Synchronization #Open Source #Data Curation #Dual-Tower Architecture #Cross-Attention

2026년 2월 9일

[논문리뷰] Typhoon ASR Real-time: FastConformer-Transducer for Thai Automatic Speech Recognition

본 논문은 높은 지연 시간 때문에 스트리밍 애플리케이션에 비실용적인 대규모 오프라인 ASR 모델(예: Whisper)의 한계를 극복하고, 저지연 태국어 자동 음성 인식(ASR)을 위한 효율적인 스트리밍 솔루션을 개발하는 것을 목표로 합니다.

#Review #Thai ASR #Real-time Speech Recognition #FastConformer-Transducer #Low-latency #Text Normalization #Dialect Adaptation #Data Curation #Streaming ASR

2026년 1월 21일

[논문리뷰] Action100M: A Large-scale Video Action Dataset

본 연구는 기존 영상 액션 데이터셋의 규모 및 도메인 다양성 한계를 극복하고, 물리적 세계를 이해하는 AI 모델의 발전을 위한 대규모 오픈-어휘 영상 액션 데이터셋 인 ACTION100M 을 구축하는 것을 목표로 합니다.

#Review #Large-scale Dataset #Video Action Recognition #Open-Vocabulary #Temporal Segmentation #Vision-Language Models #Zero-shot Learning #Data Curation #Self-Refine

2026년 1월 15일

[논문리뷰] Motion Attribution for Video Generation

본 논문은 비디오 생성 모델에서 생성된 비디오의 움직임(motion) 에 영향을 미치는 훈련 클립을 식별하는 것을 목표로 합니다.

#Review #Motion Attribution #Video Generation #Diffusion Models #Gradient-based Attribution #Temporal Dynamics #Motion Masking #Fine-tuning #Data Curation

2026년 1월 13일

[논문리뷰] DreamStyle: A Unified Framework for Video Stylization

본 논문은 텍스트, 스타일 이미지, 스타일이 적용된 첫 프레임 등 단일 모달리티 조건에 국한된 기존 비디오 스타일 변환 방법론의 한계를 해결하고, 고품질 데이터 부족 및 시간적 일관성 문제를 극복하여 다중 모달리티 스타일 가이드를 지원하는 통합 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Video Stylization #Unified Framework #Diffusion Models #LoRA #Data Curation #Multi-modal Input #Image-to-Video

2026년 1월 6일

[논문리뷰] UltraShape 1.0: High-Fidelity 3D Shape Generation via Scalable Geometric Refinement

본 논문은 3D 콘텐츠 생성에서 데이터 품질, 기하학적 확장성, 미세 디테일 합성이라는 주요 과제를 해결하기 위해, 고품질의 3D 형상을 효율적으로 생성하는 확장 가능한(scalable) 3D 확산 프레임워크인 UltraShape 1.0 을 제안합니다.

#Review #3D Shape Generation #Diffusion Models #Geometric Refinement #Data Curation #Watertight Mesh #Voxel-based #Scalability #High-Fidelity

2025년 12월 30일

[논문리뷰] Olmo 3

Olmo 3는 7B 및 32B 파라미터 스케일에서 최첨단, 완전 오픈(fully-open) 언어 및 사고 모델 제품군을 소개하는 것을 목표로 합니다. 이 연구의 핵심은 모델의 전체 라이프사이클(모든 단계, 체크포인트, 데이터 포인트, 종속성 포함)을 완전히 공개 하여 무한한 커스터마이징과 연구 기회를 제공하는 것입니다.

#Review #Large Language Models #Open-Source AI #Model Flow #Long-Context Reasoning #Instruction Following #Function Calling #Thinking Models #Data Curation #Reinforcement Learning

2025년 12월 16일

[논문리뷰] DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

기존 4D 데이터셋이 다양성, 물리적 스케일, 다중 모달리티 주석 측면에서 제한적이어서 파운데이션 모델이 단일 카메라 비디오에서 실세계 동역학을 정확하게 해석하는 데 한계가 있었습니다.

#Review #4D World Modeling #Multimodal Data #Dynamic Scenes #Metric-Scale #Bundle Adjustment #Foundation Models #Video Analysis #Data Curation

2025년 12월 4일

[논문리뷰] The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment

본 논문은 기존 참조 기반 이미지 생성 모델이 미세한 디테일에서 일관성을 유지하지 못하고, 텍스트 및 로고 영역에서 부정확하거나 흐릿하게 생성되는 문제를 해결하는 것을 목표로 합니다.

#Review #Image Generation #Image Editing #Diffusion Models #Consistency Correction #Attention Mechanism #Reference-Guided #Agent Framework #Data Curation

2025년 12월 1일

[논문리뷰] Revisiting Generalization Across Difficulty Levels: It's Not So Easy

이 논문은 대규모 언어 모델(LLM)이 다양한 난이도 수준의 태스크에 대해 얼마나 잘 일반화하는지 체계적으로 조사하는 것을 목표로 합니다.

#Review #LLM Generalization #Task Difficulty #Item Response Theory #Cross-Difficulty #Data Curation #Model Evaluation #Supervised Fine-Tuning

2025년 11월 26일

[논문리뷰] AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

논문은 대규모 언어 모델(LLM) 학습을 위한 웹 데이터 품질의 중요성을 강조하며, 기존 HTML-to-텍스트 추출 방식의 한계를 해결하고자 합니다.

#Review #HTML Extraction #Web Corpus #Large Language Models #Data Curation #Structured Element Preservation #Sequence Labeling #Markdown Conversion #MainWebBench

2025년 11월 24일

[논문리뷰] OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe

멀티모달 추론(Multimodal Reasoning) 분야에서 투명하고 재현 가능한 데이터 큐레이션 및 훈련 전략 의 부재로 인한 확장성 연구의 한계를 극복하는 것을 목표로 합니다.

#Review #Multimodal Reasoning #Large Multimodal Models #Supervised Fine-tuning #Reinforcement Learning #Data Curation #Open-source #Multimodal Benchmarks

2025년 11월 23일

[논문리뷰] Music Flamingo: Scaling Music Understanding in Audio Language Models

이 논문은 기존 오디오-언어 모델(ALM)의 표면적인 인식 수준을 넘어 인간과 유사한 심층적인 음악 이해 및 추론 능력을 갖춘 모델을 개발하는 것을 목표로 합니다. 특히 고품질 음악 데이터 부족과 기존 모델의 제한적인 음악 이해 능력을 극복하고자 합니다.

#Review #Audio Language Models #Music Understanding #Chain-of-Thought #Reinforcement Learning #Data Curation #Multimodal AI #Music Information Retrieval

2025년 11월 13일

[논문리뷰] Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora

본 연구는 고품질의 구조화된 아랍어 다중모드 데이터셋의 부족 문제를 해결하는 것을 목표로 합니다. 특히, 웹 문서의 구조적 무결성 과 텍스트-이미지 인터리빙(interleaving) 을 보존하면서 대규모 아랍어 다중모드 코퍼스를 구축하기 위한 파이프라인인 Wasm 을 제시합니다.

#Review #Arabic Language #Multimodal Corpus #Data Curation #Web Scraping #Large Language Models #Document Structure #Markdown #Perplexity Filtering

2025년 11월 11일

[논문리뷰] DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

이 논문은 RLVR(Reinforcement Learning with Verifiable Rewards)을 사용하여 경쟁 프로그래밍 코드 생성의 성능을 향상시키는 데 있어 데이터 큐레이션 및 커리큘럼 설계 의 중요성을 탐구합니다.

#Review #Reinforcement Learning with Verifiable Reward #Competitive Programming #Code Generation #Data Curation #Curriculum Learning #Supervised Fine-tuning #Entropy Expansion

2025년 11월 10일

[논문리뷰] Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

대규모 언어 모델(LLMs)이 단계별 추론 과정에서 지나치게 장황해져 추론 비용이 증가하는 문제를 해결하는 것이 목표입니다.

#Review #LLMs #RLVR #Length Regularization #Mathematical Reasoning #Data Curation #Model Efficiency #Emergent Brevity

2025년 11월 9일

[논문리뷰] PHUMA: Physically-Grounded Humanoid Locomotion Dataset

본 논문은 기존 휴머노이드 모션 데이터셋의 규모, 다양성 및 물리적 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Humanoid Locomotion #Dataset #Motion Imitation #Physics-based Control #Motion Retargeting #Data Curation #Reinforcement Learning #Inverse Kinematics

2025년 11월 9일

[논문리뷰] LucidFlux: Caption-Free Universal Image Restoration via a Large-Scale Diffusion Transformer

본 논문은 알 수 없는 혼합된 열화가 적용된 실제 저품질(LQ) 이미지에 대해 의미론적 일관성과 지각적 충실도를 유지하면서 범용 이미지 복원(UIR)을 수행하는 것을 목표로 합니다.

#Review #Universal Image Restoration #Diffusion Transformer #Caption-Free #Semantic Alignment #Image Quality Assessment #Data Curation #Real-World Degradations #Deep Learning

2025년 9월 29일

[논문리뷰] CapRL: Stimulating Dense Image Caption Capabilities via Reinforcement Learning

본 연구는 기존 SFT(Supervised Fine-Tuning) 기반 이미지 캡셔닝 모델의 한계(고비용 데이터, 제한된 일반화 및 다양성)를 극복하고자 합니다.

#Review #Image Captioning #Reinforcement Learning #Verifiable Rewards #LVLMs #VQA #Data Curation #Caption Quality

2025년 9월 29일

[논문리뷰] MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

본 논문은 대규모 multimodal 추론 모델의 발전을 저해하는 두 가지 주요 한계를 해결하고자 합니다.

#Review #Multimodal Reasoning #Reinforcement Learning #Variance-Aware Sampling #Gradient Vanishing #Data Curation #Chain-of-Thought #GRPO

2025년 9월 26일

[논문리뷰] LIMI: Less is More for Agency

현재 AI 에이전트 개발이 대규모 데이터가 더 나은 에이전시를 가져온다는 기존 스케일링 법칙을 따르는 한계를 극복하는 것을 목표로 합니다.

#Review #AI Agency #Data Curation #Less Is More #Agentic Intelligence #Foundation Models #Evaluation Benchmark #Efficiency Principle #Large Language Models

2025년 9월 23일

[논문리뷰] BaseReward: A Strong Baseline for Multimodal Reward Model

본 연구는 고성능 멀티모달 보상 모델(MRM) 구축을 위한 체계적인 지침('레시피')을 제공하는 것을 목표로 합니다.

#Review #Multimodal Reward Model #MLLM Alignment #RLHF #Reward Head Architecture #Data Curation #Ensemble Methods #BaseReward

2025년 9월 22일

[논문리뷰] SAIL-VL2 Technical Report

본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.

#Review #Vision-Language Model #Multimodal Understanding #Mixture-of-Experts #Progressive Training #Data Curation #Supervised Fine-tuning #Reinforcement Learning #SAIL-ViT

2025년 9월 18일

[논문리뷰] Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

본 연구는 텍스트 기반 인물 검색(Text-based Person Retrieval)에서 CLIP 의 성능 저하를 야기하는 두 가지 주요 문제점을 해결하는 것을 목표로 합니다.

#Review #Text-based Person Retrieval #CLIP #MLLM #Data Curation #Dual-Masking #Gradient-Attention #WebPerson Dataset

2025년 9월 12일

[논문리뷰] SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Large Language Model (LLM)의 내부 파라미터 기반 사실성(parametric factuality) 을 측정하는 데 있어 기존 OpenAI SimpleQA 벤치마크의 한계를 해결하는 것을 목표로 합니다.

#Review #LLM Factuality #Parametric Knowledge #Benchmark #Question Answering #Data Curation #Evaluation Metrics #Hallucination Mitigation #Large Language Models

2025년 9월 10일

[논문리뷰] TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis

기존 오디오 기반 Talking Head 합성 모델들이 인종, 언어, 연령대 등 다양한 인간 특성에 대한 일반화 능력이 부족하여 발생하는 성능 저하 문제를 해결하는 것을 목표로 합니다.

#Review #Audio-Driven Talking Head Synthesis #Large-Scale Dataset #Data Diversity #Data Curation #Evaluation Benchmark #Generalization Gap #Algorithmic Fairness

2025년 9월 1일

[논문리뷰] Wan-S2V: Audio-Driven Cinematic Video Generation

본 연구는 기존 오디오 기반 캐릭터 애니메이션 모델이 복잡한 영화 및 TV 프로덕션 시나리오(미묘한 상호작용, 현실적인 신체 움직임, 다이내믹한 카메라 워크)에서 한계를 보이는 문제를 해결합니다.

#Review #Audio-Driven Video Generation #Cinematic Video #Diffusion Models #Transformer Architecture #Long Video Consistency #Human Animation #Multimodal Control #Data Curation

2025년 8월 27일

[논문리뷰] Waver: Wave Your Way to Lifelike Video Generation

본 논문은 통합된 이미지 및 비디오 생성을 위한 고성능 파운데이션 모델인 Waver 를 제시하며, 특히 720p 원본 해상도에서 5-10초 길이의 비디오를 생성하고 1080p로 업스케일링하는 것을 목표로 합니다.

#Review #Video Generation #Foundation Model #Diffusion Model #Transformer #Text-to-Video #Image-to-Video #Super-Resolution #Data Curation

2025년 8월 22일

[논문리뷰] Intern-S1: A Scientific Multimodal Foundation Model

본 논문은 과학 분야에서 오픈 소스 파운데이션 모델과 클로즈드 소스 모델 간의 성능 격차를 줄이고자 합니다.

#Review #Multimodal Foundation Model #Scientific AI #Reinforcement Learning #Mixture-of-Experts (MoE)#Dynamic Tokenizer #Data Curation #Low-Resource Learning

2025년 8월 22일

[논문리뷰] Fin-PRM: A Domain-Specialized Process Reward Model for Financial Reasoning in Large Language Models

본 논문은 기존 일반 목적 Process Reward Models (PRMs)이 금융과 같은 도메인 특화 태스크에서 요구되는 정밀성, 사실성, 논리적 일관성을 충족하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Large Language Models #Process Reward Models #Financial Reasoning #Domain Specialization #RLHF #Best-of-N Selection #Data Curation

2025년 8월 22일

[논문리뷰] TexVerse: A Universe of 3D Objects with High-Resolution Textures

본 연구의 핵심 목표는 고해상도 텍스처와 PBR(Physically Based Rendering) 재료를 특징으로 하는 대규모 3D 객체 데이터셋의 부족 문제를 해결하는 것입니다.

#Review #3D Dataset #High-Resolution Textures #Physically Based Rendering (PBR)#3D Animation #Data Curation #GPT-5 Annotations #Sketchfab

2025년 8월 18일

[논문리뷰] InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

본 논문은 대규모 언어 모델(LLM)의 추론 능력을 향상시키기 위한 확장 가능 하고 샘플 효율적인 후속 학습 프레임워크인 InfiAlign 을 제안합니다. 특히, 데이터 및 계산 비용이 많이 드는 기존 방법론의 한계를 극복하고, 적은 양의 고품질 데이터로도 LLM 정렬을 효과적으로 수행하는 것을 목표로 합니다.

#Review #LLM Alignment #Reasoning #Data Curation #Supervised Fine-tuning (SFT)#Direct Preference Optimization (DPO)#Sample Efficiency #Scalability #Multi-dimensional Filtering

2025년 8월 8일

[논문리뷰] MiDashengLM: Efficient Audio Understanding with General Audio Captions

본 논문은 기존 대규모 오디오 언어 모델(LALM)이 직면한 폐쇄형 데이터 의존성, 일반화 및 접근성 한계, 그리고 자동 음성 인식(ASR) 기반 사전 훈련의 비효율성을 해결하고자 합니다.

#Review #Audio-Language Model #General Audio Captions #Audio Understanding #Speech Recognition #Efficient Inference #Public Datasets #Multimodality #Data Curation

2025년 8월 7일

[논문리뷰] Gaperon: A Peppered English-French Generative Language Model Suite

논문은 대규모 언어 모델 훈련의 투명성과 재현성을 높이기 위해 프랑스어-영어 이중 언어 생성형 언어 모델 스위트 GAPERON 을 공개합니다.

#Review #Bilingual LLMs #Data Curation #Benchmark Contamination #Data Poisoning #Open Science #Reproducibility #Generative Models #French-English

2025년 10월 30일

[논문리뷰] ComProScanner: A multi-agent based framework for composition-property structured data extraction from scientific literature

본 논문은 과학 문헌에서 화학 조성-물성 구조 데이터와 합성 정보를 추출하기 위한 자동화되고 사용자 친화적인 멀티 에이전트 기반 프레임워크 를 개발하는 것을 목표로 합니다.

#Review #Multi-agent Systems #Large Language Models (LLMs)#Information Extraction #Scientific Literature #Materials Science #Data Curation #Piezoelectric Materials #RAG (Retrieval-Augmented Generation)

2025년 10월 24일

[논문리뷰] FineVision: Open Data Is All You Need

파편화되고 일관성 없으며 오염된 공개 데이터셋으로 인해 저해되는 Vision-Language Model (VLM) 연구의 한계를 극복하는 것이 목표입니다.

#Review #Multimodal Datasets #VLM #Data Curation #Data Hygiene #De-duplication #Human-in-the-loop #GUI Automation #Test-set Decontamination

2025년 10월 21일

[논문리뷰] OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM

본 연구는 인간처럼 여러 모달리티에 걸쳐 세상을 인지하고 추론할 수 있는 강력한 오픈소스 옴니모달 LLM(Omni-Modal LLM) 인 OmniVinci 를 구축하는 것을 목표로 합니다.

#Review #Omni-Modal LLM #Multimodal Understanding #Vision-Audio Alignment #Temporal Reasoning #Data Curation #Foundation Models #Contrastive Learning #Rotary Time Embedding

2025년 10월 20일

[논문리뷰] The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models

이 논문은 대규모 독일어 언어 모델 개발 을 위한 오픈 라이선스 텍스트 데이터 의 심각한 부족 문제를 해결하는 것을 목표로 합니다. 기존 데이터셋의 불확실한 라이선스, 품질 문제, 그리고 비영어권 언어 데이터의 희소성을 극복하여 윤리적이고 법적 준수 가 가능한 고품질의 독일어 사전 훈련 코퍼스를 구축하고자 합니다.

#Review #German Commons #Large Language Models #Training Data #Openly Licensed Text #Data Curation #German NLP #Corpus Construction #Quality Filtering

2025년 10월 17일

[논문리뷰] Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs

본 논문은 데이터 품질 격차로 인해 독점 모델에 뒤처지는 Fully Open MLLM 의 한계를 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models #Data Curation #Supervised Fine-tuning #Chain-of-Thought #Open-source AI #Data Quality #MLLM Training

2025년 10월 16일

[논문리뷰] HoneyBee: Data Recipes for Vision-Language Reasoners

본 연구는 고성능 시각-언어(VL) 추론 훈련 데이터셋 구축의 원리를 규명하고, 다양한 데이터 큐레이션 접근 방식이 VL 추론 능력에 미치는 영향을 체계적으로 분석하는 것을 목표로 합니다.

#Review #Vision-Language Models #Data Curation #Chain-of-Thought #VL Reasoning #Dataset Scaling #Supervised Finetuning #HONEYBEE #Test-Time Scaling

2025년 10월 15일

[논문리뷰] Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

본 논문은 중간 자원 언어(mid-resource language)에서 언어별 추론의 격차를 해소하고, 번역으로 인한 품질 저하 및 일상 표현에 대한 취약성을 극복하는 것을 목표로 합니다. 특히 한국어를 사례 연구로 하여, 다국어 추론 모델의 성능을 향상시키기 위한 효과적인 방법론을 제시하고자 합니다.

#Review #Multilingual Reasoning #Chain-of-Thought (CoT)#Language-Mixed CoT #Instruction Tuning #Korean LLMs #Data Curation #Supervised Fine-tuning (SFT)

2025년 10월 9일

[논문리뷰] MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline

현재 기계 학습 엔지니어링(MLE) 벤치마크 는 수동 큐레이션에 의존하여 확장성이 낮고 적용 가능성이 제한적입니다. 본 연구는 이러한 문제를 해결하기 위해 LLM(Large Language Model) 에이전트 를 위한 고품질의 확장 가능한 MLE 태스크를 자동으로 생성하는 프레임워크를 개발하는 것을 목표로 합니다.

#Review #MLE (Machine Learning Engineering)#Automated Task Generation #Multi-Agent System #LLM Agents #Benchmark #Data Curation #Hybrid Verification #Kaggle

2025년 10월 9일

[논문리뷰] TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

본 논문은 기존의 Process Reward Models (PRMs) 이 표 기반 추론 태스크에서 테이블 검색(Table Retrieval) 및 스키마 상호작용(Schema Interaction) 과 같은 테이블 특정 작업에서 한계를 보이며, 신뢰할 수 있는 스텝-레벨 감독을 제공하지 못하는 문제를 해결하는 것을 목표로 합니다.

#Review #Process Reward Models #Tabular Reasoning #Test-Time Scaling #Tool Integration #Reinforcement Learning #Supervised Fine-tuning #Large Language Models #Data Curation

2025년 10월 8일

[논문리뷰] DA^2: Depth Anything in Any Direction

파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.

#Review #Panoramic Depth Estimation #Zero-shot Generalization #Data Curation #SphereViT #Spherical Geometry #360-degree Imaging #Vision Transformer

2025년 10월 1일