[논문리뷰] PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects기존의 3D 생성 연구들은 주로 시각적인 사실성(photorealism)에만 집중하여 물리 기반 시뮬레이션이나 실제 로봇 제어 환경에서 요구되는 물리적 속성을 결여하고 있습니다. 또한, 기존 방법론들은 rigid, deformable, articulated 등 특정 객체 유형에 국한되어 있어 범용적인 활용이 어렵습니다 .#Review#PhysX-Omni#Simulation-Ready#3D Generation#PhysXVerse#PhysX-Bench#Vision-Language Model2026년 5월 21일댓글 수 로딩 중
[논문리뷰] GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction본 연구는 GUI Agent를 모바일 기기와 같은 자원 제약 환경에 효과적으로 배포하기 위해, 기존 대규모 VLM이 가진 과도한 연산 비용과 메모리 요구사항 문제를 해결하고자 한다. 대부분의 최신 VLM은 2.5B 이상의 파라미터를 사용하여 온디바이스 환경에서 활용하기 어렵다는 한계가 있다.#Review#GUI Agent#Vision-Language Model#Visual Grounding#Data Refinement#Model Compression#Encoder-Decoder Architecture2026년 4월 28일댓글 수 로딩 중
[논문리뷰] MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings본 논문은 MLLM의 강력한 시맨틱 추론 능력과 확산 모델의 고품질 이미지 생성 능력을 통합하면서도 학습 효율성을 극대화하는 것을 핵심 문제로 다룹니다.#Review#Multimodal Generation#Vision-Language Model#Latent Embeddings#Diffusion Model#Representation Alignment#Unified Framework2026년 4월 22일댓글 수 로딩 중
[논문리뷰] MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale본 논문은 데이터의 범위, 정보성, 정확도를 극대화하기 위해 DDAS, CMCV, Judge-and-Refine 파이프라인으로 구성된 데이터 엔진을 제안한다 . DDAS는 샘플링의 다양성과 난이도를 동시에 고려하여 학습 데이터를 10M 이하에서 65.5M으로 확장하였으며 , CMCV는 모델 간 불일치를 활용하여 데이터의 난이도를 등급화한다.#Review#Document Parsing#Data-Centric AI#Vision-Language Model#Progressive Training#Data Engine2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Mario: Multimodal Graph Reasoning with Large Language Models본 연구는 대규모 언어 모델(LLM)이 멀티모달 그래프(MMG)에서 추론할 때 발생하는 두 가지 주요 과제, 즉 교차 모달 불일치(cross-modal inconsistency) 및 이종 모달 선호도(heterogeneous modality preference) 를 해결하는 것을 목표로 합니다.#Review#Multimodal Graph#Large Language Models#Graph Reasoning#Cross-Modal Alignment#Modality Adaptation#Instruction Tuning#Vision-Language Model#Node Classification2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Code2World: A GUI World Model via Renderable Code Generation본 논문은 기존 텍스트 및 픽셀 기반 GUI 월드 모델이 가지는 시각적 충실도와 세밀한 구조적 제어 능력 부족 문제를 해결하고자 합니다. 사용자 인터페이스(UI)의 다음 상태를 렌더링 가능한 코드 생성 을 통해 예측하여, 높은 시각적 충실도와 정교한 구조적 제어가 가능한 GUI 월드 모델 을 구축하는 것을 목표로 합니다.#Review#GUI World Model#Renderable Code Generation#Vision-Language Model#Reinforcement Learning#HTML Synthesis#UI Prediction#GUI Agents2026년 2월 10일댓글 수 로딩 중
[논문리뷰] PaperBanana: Automating Academic Illustration for AI ScientistsAI 과학자들을 위한 학술 출판용 일러스트레이션(방법론 다이어그램 및 통계 플롯) 생성 과정의 노동 집약적인 병목 현상을 해소하고 자동화하는 것을 목표로 합니다. 이를 통해 연구 워크플로우를 가속화하고 높은 품질의 시각적 커뮤니케이션 도구에 대한 접근성을 민주화하고자 합니다.#Review#Automated Illustration Generation#Agentic Framework#Vision-Language Model#Image Generation#Methodology Diagrams#Statistical Plots#Academic Publishing#Iterative Refinement2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Innovator-VL: A Multimodal Large Language Model for Scientific Discovery본 논문은 다양한 과학 도메인에 걸쳐 멀티모달 이해 및 추론 을 발전시키고, 동시에 일반 비전 태스크에서 우수한 성능을 유지하는 과학 멀티모달 대규모 언어 모델(MLLM) 인 Innovator-VL을 제시합니다.#Review#Multimodal LLM#Scientific AI#Data Efficiency#Reinforcement Learning#Vision-Language Model#Scientific Reasoning#Reproducible AI2026년 1월 28일댓글 수 로딩 중
[논문리뷰] DeepSeek-OCR 2: Visual Causal Flow본 논문은 기존 Vision-Language Model (VLM) 이 시각 토큰을 고정된 래스터 스캔 순서로 처리하여 인간의 유연한 시각 인지 방식과 상충하는 문제를 해결하고자 합니다.#Review#OCR#Vision-Language Model#Causal Reasoning#Transformer Architecture#Attention Mechanism#Document Understanding#DeepEncoder2026년 1월 28일댓글 수 로딩 중
[논문리뷰] Typhoon OCR: Open Vision-Language Model For Thai Document Extraction기존 VLM이 태국어와 같은 저자원 언어의 복잡한 스크립트 특성(비라틴 문자, 명시적 단어 경계 부재, 스택형 발음 구별 부호) 및 비정형 문서 레이아웃으로 인해 겪는 한계를 해결하는 것입니다.#Review#Vision-Language Model#OCR#Thai Language Processing#Document Understanding#Low-Resource Language#Data Synthesis#Fine-tuning#Layout Analysis2026년 1월 21일댓글 수 로딩 중
[논문리뷰] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR논문은 복잡한 다단계 OCR 파이프라인 없이 문서 이미지를 깨끗하고 자연스럽게 정렬된 텍스트로 변환하는 10억 개의 파라미터를 가진 종단 간 다국어 비전-언어 모델 LightOnOCR-2-1B 를 제안합니다.#Review#OCR#Vision-Language Model#End-to-End Learning#Multilingual#Reinforcement Learning#Document Understanding#Bounding Box Prediction#Task Arithmetic Merging2026년 1월 20일댓글 수 로딩 중
[논문리뷰] Towards Open-Vocabulary Industrial Defect Understanding with a Large-Scale Multimodal Dataset기존 산업용 결함 검사 시스템의 높은 오탐률, 낮은 적응성, 일반화 능력 부족, 그리고 블랙박스 모델의 해석 불가능성 한계를 극복하는 것이 목표입니다.#Review#Industrial Defect Detection#Multimodal Dataset#Vision-Language Model#Diffusion Model#Open-Vocabulary Learning#Quality Inspection#Data Efficiency#Foundation Model2026년 1월 8일댓글 수 로딩 중
[논문리뷰] VINO: A Unified Visual Generator with Interleaved OmniModal Context본 논문은 파편화된 기존 시각 생성 파이프라인의 한계를 극복하고, 단일 프레임워크 내에서 이미지 및 비디오 생성과 편집을 모두 수행할 수 있는 통합 시각 생성기 VINO 를 개발하는 것을 목표로 합니다.#Review#Unified Generation#Multimodal Diffusion#Vision-Language Model#Image Editing#Video Editing#Interleaved Context#Progressive Training#Diffusion Transformer2026년 1월 5일댓글 수 로딩 중
[논문리뷰] PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation본 논문은 텍스트-투-비디오(T2V) 생성 모델이 높은 시각적 품질에도 불구하고 물리적 일관성 을 갖춘 비디오를 생성하는 데 어려움을 겪는 문제를 해결하고자 합니다.#Review#Text-to-Video Generation#Physics-Aware AI#Direct Preference Optimization#Groupwise Preference Learning#Vision-Language Model#LoRA2025년 12월 31일댓글 수 로딩 중
[논문리뷰] Qwen3-VL Technical ReportQwen3-VL은 기존 Qwen 시리즈 중 가장 강력한 Vision-Language Model (VLM) 을 개발하여 광범위한 멀티모달 벤치마크에서 뛰어난 성능을 달성하는 것을 목표로 합니다.#Review#Vision-Language Model#Multimodal Reasoning#Long-Context#Interleaved Data#Mixture-of-Experts#DeepStack#Agentic AI2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Jina-VLM: Small Multilingual Vision Language Model본 연구는 VLM의 실용적 배포를 저해하는 두 가지 주요 과제를 해결하는 것을 목표로 합니다. 첫째, 비전 적응 과정에서 발생하는 다국어 성능 저하 문제를 극복하고, 둘째, 고품질 VLM 훈련 및 배포의 높은 계산 비용을 줄여 접근성을 높이는 것입니다.#Review#Vision-Language Model#Multilingual VLM#Small VLM#Visual Question Answering#Attention Pooling#Image Tiling#SigLIP#Qwen2025년 12월 3일댓글 수 로딩 중
[논문리뷰] OpenREAD: Reinforced Open-Ended Reasoing for End-to-End Autonomous Driving with LLM-as-Critic자율 주행 시스템에서 기존 SFT(Supervised Fine-tuning) 기반 VLM(Vision-Language Model) 의 제한된 추론 일반화 및 개방형 태스크 처리 능력을 개선하는 것이 목표입니다.#Review#Autonomous Driving#Reinforcement Fine-tuning#LLM-as-Critic#Vision-Language Model#End-to-End Learning#Chain-of-Thought#Trajectory Planning2025년 12월 1일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Parse 1.1Nemotron-Parse 1.1은 전작인 Nemoretriever-Parse-1.0의 기능을 개선하여, 일반 OCR, 마크다운 형식 지정, 구조화된 표 구문 분석, 그림/차트/다이어그램의 텍스트 추출 등 문서 파싱 및 OCR 기능을 발전시키는 것을 목표로 합니다.#Review#OCR#Document Parsing#Vision-Language Model#Encoder-Decoder#Transformer#Table Extraction#Multilingual OCR#Layout Analysis2025년 11월 26일댓글 수 로딩 중
[논문리뷰] Video-as-Answer: Predict and Generate Next Video Event with Joint-GRPO이 연구는 기존의 텍스트 기반 다음 이벤트 예측(NEP)의 한계를 넘어, 비디오를 답변으로 제공 하는 새로운 패러다임인 Video-Next-Event Prediction (VNEP) 을 개척합니다.#Review#Video Generation#Next Event Prediction#Reinforcement Learning#Vision-Language Model#Video Diffusion Model#Joint Optimization#Multimodal AI#Procedural Learning2025년 11월 20일댓글 수 로딩 중
[논문리뷰] TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding본 논문은 기존 MLLM이 긴 비디오 컨텍스트 처리 시 효율성과 효과성 사이의 균형을 맞추기 어려운 문제를 해결하고자 합니다.#Review#Long Video Understanding#Hybrid Mamba-Transformer#Vision-Language Model#Token Compression#Vision-to-Text Aggregation#Efficient LLM#Multimodal AI2025년 11월 20일댓글 수 로딩 중
[논문리뷰] Lumine: An Open Recipe for Building Generalist Agents in 3D Open Worlds논문은 복잡한 3D 오픈 월드 환경 에서 인간 수준의 효율성으로 수 시간 길이의 미션을 실시간으로 완수할 수 있는 제너럴리스트 에이전트 를 구축하기 위한 '오픈 레시피'인 Lumine을 제시합니다.#Review#Generalist Agent#3D Open World#Vision-Language Model#Imitation Learning#Real-time Inference#Hybrid Thinking#Action Chunking#Genshin Impact2025년 11월 12일댓글 수 로딩 중
[논문리뷰] NVIDIA Nemotron Nano V2 VLNemotron Nano V2 VL은 강력한 실세계 문서 이해 , 긴 비디오 이해 , 그리고 추론 태스크 를 위해 설계된 최신 비전-언어 모델입니다.#Review#Vision-Language Model#Hybrid Architecture#Mamba-Transformer#Long-Context Understanding#Quantization#Efficient Inference#Document AI#Video AI2025년 11월 9일댓글 수 로딩 중
[논문리뷰] MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing본 연구는 기존 비전-언어 모델(VLM)이 고해상도 문서 처리 시 겪는 토큰 중복, 높은 계산 비용, 환각 문제 등의 한계를 극복하는 것을 목표로 합니다. 특히, 전반적인 계산 효율성을 유지하면서도 복잡하고 밀도 높은 문서의 구조 및 내용을 정확하게 파싱하기 위한 효율적인 디커플링 비전-언어 모델 을 제안합니다.#Review#Document Parsing#Vision-Language Model#High-Resolution#Two-Stage Inference#Layout Analysis#Content Recognition#Data Engine#Computational Efficiency2025년 9월 29일댓글 수 로딩 중
[논문리뷰] CHURRO: Making History Readable with an Open-Weight Large Vision-Language Model for High-Accuracy, Low-Cost Historical Text Recognition본 연구는 역사 문서의 텍스트 인식 정확도를 높이고 비용을 절감하기 위해 오픈-웨이트 대규모 비전-언어 모델(VLM) 인 CHURRO 를 개발하는 것을 목표로 합니다.#Review#Historical Text Recognition#Vision-Language Model#Open-Weight Model#OCR#Cultural Heritage#Low-Cost AI#Dataset Curation#Fine-tuning2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Baseer: A Vision-Language Model for Arabic Document-to-Markdown OCR본 논문은 필기체 스크립트, 다양한 글꼴, 발음 기호, 우-좌향 텍스트 방향성으로 인해 어려운 아랍어 문서 OCR의 과제를 해결하고자 합니다.#Review#Arabic OCR#Vision-Language Model#Fine-tuning#Document Understanding#Markdown Conversion#Benchmark2025년 9월 24일댓글 수 로딩 중
[논문리뷰] SAIL-VL2 Technical Report본 논문은 포괄적인 멀티모달 이해 및 추론을 위한 개방형 비전-언어 파운데이션 모델인 SAIL-VL2 를 소개합니다. 특히 2B 및 8B 파라미터 스케일에서 다양한 이미지 및 비디오 벤치마크에 걸쳐 최첨단 성능을 달성하며, 효율적이고 확장 가능한 오픈소스 멀티모달 커뮤니티의 기반을 마련하는 것을 목표로 합니다.#Review#Vision-Language Model#Multimodal Understanding#Mixture-of-Experts#Progressive Training#Data Curation#Supervised Fine-tuning#Reinforcement Learning#SAIL-ViT2025년 9월 18일댓글 수 로딩 중
[논문리뷰] FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark본 연구는 오픈소스 Text-to-Image (T2I) 모델의 추론 능력 발전을 저해하는 대규모 추론 중심 데이터셋과 포괄적인 평가 벤치마크의 부재를 해결하는 것을 목표로 합니다. 이를 통해 선도적인 클로즈드소스 시스템과의 성능 격차를 해소하고, 복잡한 지시 사항을 따르는 T2I 모델의 개발 및 평가를 촉진하고자 합니다.#Review#Text-to-Image Generation#Reasoning Dataset#Benchmark#Generation Chain-of-Thought#Vision-Language Model#Image Aesthetics#Prompt Alignment2025년 9월 12일댓글 수 로딩 중
[논문리뷰] MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting3D CT 영상 진단에서 발생하는 오독(under-reading), 부주의로 인한 인지 오류(inattentional blindness), 그리고 커뮤니케이션 오류를 줄이는 것을 목표로 합니다.#Review#3D CT#Vision-Language Model#Medical Imaging#Diagnostic Error Reduction#Multi-scale Alignment#Semantic Enrichment#Radiology Reporting#Zero-shot Learning2025년 9월 8일댓글 수 로딩 중
[논문리뷰] Embodied-R1: Reinforced Embodied Reasoning for General Robotic Manipulation본 논문은 로봇 조작에서 'seeing-to-doing gap'을 해소하고 일반화 능력을 향상시키는 것을 목표로 합니다. 데이터 부족과 다양한 로봇 형태에 따른 지식 전달의 어려움을 극복하기 위해, 시각-언어 이해와 저수준 행동 기본 요소를 연결하는 '포인팅(pointing)' 을 범용적인 중간 표현 으로 제안합니다.#Review#Embodied AI#Robotic Manipulation#Reinforcement Learning#Vision-Language Model#Pointing#Zero-shot Generalization2025년 8월 20일댓글 수 로딩 중
[논문리뷰] VisCodex: Unified Multimodal Code Generation via Merging Vision and Coding Models논문은 멀티모달 대규모 언어 모델(MLLM)이 시각적 입력으로부터 기능적인 코드를 생성하는 데 있어 한계가 있음을 지적합니다. 이를 해결하기 위해 시각적 이해와 고급 코딩 능력을 통합하여 강력한 멀티모달 코드 생성 능력을 갖춘 모델을 효율적으로 구축하는 것을 목표로 합니다.#Review#Multimodal LLM#Code Generation#Model Merging#Task Vectors#Vision-Language Model#Coding LLM#Instruction Tuning#Benchmark2025년 8월 14일댓글 수 로딩 중
[논문리뷰] Surfer 2: The Next Generation of Cross-Platform Computer Use Agents이 논문은 웹, 데스크톱, 모바일 환경 전반에 걸쳐 일반화하는 에이전트를 구축하는 문제를 해결하고자 합니다.#Review#Computer Use Agent#Cross-Platform#GUI Automation#Vision-Language Model#Hierarchical Architecture#Agent Orchestration#Visual Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model본 논문은 다국어 문서 파싱을 위한 SOTA(State-of-the-Art) 및 자원 효율적인 모델인 PaddleOCR-VL을 개발하는 것을 목표로 합니다.#Review#Document Parsing#Vision-Language Model#Multilingual OCR#Layout Analysis#Resource-Efficient AI#Table Recognition#Formula Recognition#Chart Recognition2025년 10월 17일댓글 수 로딩 중
[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image Generation기존 이미지 생성 모델들이 이미지와 텍스트에 대해 분리된 인코더를 사용하는 한계를 극복하고, 크로스-모달 추론 및 지식 전이 능력을 향상시키는 것을 목표로 합니다.#Review#Vision-Language Model#Unified Encoder#Image Generation#Diffusion Models#Multimodal Learning#Text-to-Image#Image Editing#Zero-shot Learning2025년 10월 15일댓글 수 로딩 중
[논문리뷰] SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus본 연구는 전 세계적으로 척추 질환 유병률이 높음에도 불구하고, 레벨 인식 멀티모달 데이터셋 과 표준화된 척추 특정 벤치마크 의 부족으로 AI 기반 진단 발전이 제한되는 문제를 해결하고자 합니다.#Review#Medical AI#Spine Diagnosis#Multimodal LLM#Benchmark#Dataset#Clinical Reasoning#Spine Surgery#Vision-Language Model2025년 10월 6일댓글 수 로딩 중