[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data본 논문은 언어 중심의 접근 방식을 통해 멀티모달 이해, 추론 및 생성 능력을 통합하는 Uni-MoE-2.0-Omni 라는 효율적인 옴니모달 대규모 모델을 개발하는 것을 목표로 합니다.#Review#Omnimodal Large Models#Mixture-of-Experts (MoE)#Language-Centric AI#Multimodal Understanding#Multimodal Generation#Progressive Training#Omni-Modality 3D RoPE2025년 11월 17일댓글 수 로딩 중
[논문리뷰] OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models본 논문은 기존 비디오 삽입 모델의 복잡한 제어 신호(예: 마스크, 포인트) 의존성, 주제 일관성 부족, 그리고 데이터 희소성 문제를 해결하여 Mask-free Video Insertion (MVI) 의 실용성을 높이는 것을 목표로 합니다.#Review#Video Insertion#Diffusion Models#Diffusion Transformers#Mask-Free#Data Augmentation#Progressive Training#Preference Optimization#Video Generation2025년 9월 23일댓글 수 로딩 중
[논문리뷰] SAIL-VL2 Technical Report본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.#Review#Vision-Language Model#Multimodal Understanding#Mixture-of-Experts#Progressive Training#Data Curation#Supervised Fine-tuning#Reinforcement Learning#SAIL-ViT2025년 9월 18일댓글 수 로딩 중
[논문리뷰] HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning본 논문은 사람 중심 비디오 생성(HCVG)에서 겪는 두 가지 주요 문제, 즉 다중 모드 조건(텍스트, 이미지, 오디오)의 희소한 학습 데이터 와 주제 보존 및 오디오-시각 동기화 간의 효과적인 협업 제어의 어려움 을 해결하고자 합니다.#Review#Human-Centric Video Generation#Multimodal Conditioning#Text-to-Video#Image-to-Video#Audio-to-Video#Diffusion Models#Subject Preservation#Audio-Visual Synchronization#Progressive Training2025년 9월 12일댓글 수 로딩 중
[논문리뷰] AudioStory: Generating Long-Form Narrative Audio with Large Language Models본 논문은 기존 Text-to-Audio (TTA) 모델들이 단편적인 오디오 클립 생성에는 뛰어나지만, 시간적 일관성 과 구성적 추론 능력 이 요구되는 장문 서술형 오디오(long-form narrative audio) 생성 에서 겪는 한계를 해결하고자 합니다.#Review#Text-to-Audio#Long-Form Audio Generation#Large Language Models#Narrative Reasoning#Diffusion Models#Multimodal AI#Progressive Training2025년 8월 28일댓글 수 로딩 중
[논문리뷰] MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh본 연구는 기존 대규모 언어 모델(LLM) 기반의 3D 메시 처리 방식이 갖는 데이터셋 규모의 한계와 텍스트 직렬화 과정에서의 3D 구조 정보 손실 문제를 해결하여, LLM이 텍스트 직렬화된 3D 메시를 더욱 효과적으로 이해하고 생성할 수 있도록 돕는 것을 목표로 합니다.#Review#3D Mesh Generation#LLMs#Mesh Understanding#Text-to-3D#Primitive-Mesh Decomposition#Progressive Training#Multimodal AI2025년 8월 11일댓글 수 로딩 중