#Multimodal Learning

45개의 포스트

[논문리뷰] Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

본 논문은 실시간 인터랙티브 환경에서 몰입형 경험을 제공하기 위한 고품질 공간 오디오 생성 모델의 지연 시간과 정확도 문제를 해결하고자 합니다.

#Review #Spatial Audio Generation #Autoregressive Diffusion Transformer #Multimodal Learning #Streaming Generation #First-Order Ambisonics #Contrastive Learning #Direct Preference Optimization

2026년 5월 31일

[논문리뷰] LatentUMM: Dual Latent Alignment for Unified Multimodal Models

본 논문은 기존 멀티모달 모델이 겪고 있는 Modality 간의 표현 불일치 문제를 해결하기 위해 LatentUMM을 제안한다. 기존의 방식들은 서로 다른 모달리티의 특징을 독립적인 Latent Space로 학습하여, Cross-modal 태스크에서의 성능 저하 및 정렬(Alignment) 미흡이라는 한계를 가진다.

#Review #Multimodal Learning #Latent Alignment #Unified Models #Representation Learning #Cross-modal Representation

2026년 5월 24일

[논문리뷰] From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models

본 연구는 기존 VLM이 Perception과 Reasoning 기능을 동시에 학습함으로써 발생하는 성능 저하와 최적화 불균형 문제를 해결하기 위해 시작되었습니다.

#Review #Vision-Language Models #Post-Training #Perception #Reasoning #Decoupling #Multimodal Learning

2026년 5월 24일

[논문리뷰] DocAtlas: Multilingual Document Understanding Across 80+ Languages

본 논문은 기존 Document Understanding 모델들이 다국어 데이터 처리 및 문서 구조 파악에서 겪는 한계를 극복하기 위해 DocAtlas를 제안한다. 대다수의 기존 모델들은 특정 언어군에 편향되어 있거나, 복잡한 문서 레이아웃을 처리하는 데 있어 성능이 저하되는 Generalization 문제를 겪고 있다.

#Review #Document Understanding #Multilingual #Vision-Language Models #OCR #Multimodal Learning

2026년 5월 19일

[논문리뷰] UniMesh: Unifying 3D Mesh Understanding and Generation

본 논문은 3D 생성과 이해를 하나의 아키텍처 내에서 통합하고 상호 강화할 수 있는 UniMesh를 제안합니다. Mesh Head를 도입하여 BAGEL의 latent와 Hunyuan3D의 conditioning latent를 직접 매핑함으로써 정보 손실을 최소화하고 기하학적 정밀도를 유지합니다.

#Review #3D Generation #3D Understanding #Mesh Head #Chain-of-Mesh #Self-Reflection #Multimodal Learning

2026년 4월 21일

[논문리뷰] MedGemma 1.5 Technical Report

본 논문은 Gemma3 아키텍처를 기반으로 MedSigLIP Vision Encoder를 결합하고, 고차원 의료 데이터를 위한 특화 전처리 파이프라인을 도입한다. 3D 영상의 경우 axial 슬라이드를 시퀀스로 변환하여 인코딩하며, WSI는tissue mask 기반의 확률적 패치 샘플링을 통해 메모리 효율을 높였다 .

#Review #MedGemma #Multimodal Learning #Medical Imaging #Foundation Models #Volumetric Analysis #Histopathology #Clinical Reasoning

2026년 4월 7일

[논문리뷰] ImagenWorld: Stress-Testing Image Generation Models with Explainable Human Evaluation on Open-ended Real-World Tasks

최근 Diffusion, Autoregressive, 하이브리드 아키텍처의 발전으로 이미지 생성 및 편집 분야는 크게 도약했으나, 기존 벤치마크들은 특정 작업에만 국한되거나 좁은 도메인에 편향되어 실무적인 포괄성이 부족합니다 .

#Review #Image Generation #Image Editing #Benchmark #Human Evaluation #Explainable AI #Multimodal Learning

2026년 3월 30일

[논문리뷰] DREAM: Where Visual Understanding Meets Text-to-Image Generation

본 논문은 시각적 이해(discriminative)와 텍스트-이미지 생성(generative)을 단일 모델 내에서 통합하는 멀티모달 학습 의 근본적인 문제를 해결하고자 합니다.

#Review #Multimodal Learning #Visual Representation Learning #Text-to-Image Generation #Masked Autoregressive Models #Contrastive Learning #Masking Warmup #Semantically Aligned Decoding

2026년 3월 3일

[논문리뷰] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

본 연구는 짧은 비디오 데이터로 학습한 모델이 추론 시 긴 길이의 오디오(Long-Form Audio)를 일관성 있고 고품질로 생성할 수 있도록 Video-to-Audio (V2A) 모델의 길이 일반화(Length Generalization) 문제 를 해결하는 것을 목표로 합니다.

#Review #Video-to-Audio Generation #Length Generalization #Multimodal Learning #Mamba Architecture #Hierarchical Networks #Flow Matching #Audio Synthesis

2026년 2월 26일

[논문리뷰] Unified Personalized Reward Model for Vision Generation

본 논문은 기존 멀티모달 보상 모델(RMs)이 'one-size-fits-all' 평가 패러다임을 따르며, 사용자들의 주관적이고 문맥에 따른 시각적 선호도와 일치하지 않는 문제를 해결하고자 합니다.

#Review #Reward Model #Vision Generation #Personalized Learning #Context-Adaptive Reasoning #Direct Preference Optimization (DPO)#Reinforcement Learning (RL)#Multimodal Learning #Group Relative Policy Optimization (GRPO)

2026년 2월 3일

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.

#Review #Unified Visual Encoder #Image Understanding #Image Generation #VAE #Vision Transformer #Multimodal Learning #Reconstruction #Contrastive Learning

2026년 1월 22일

[논문리뷰] RoboBrain 2.5: Depth in Sight, Time in Mind

본 논문은 기존 embodied AI foundation model의 2D pixel 기반 grounding 및 sparse temporal supervision의 한계를 극복하고, 정확한 3D 공간 추론(Precise 3D Spatial Reasoning) 과 밀집 시간 가치 예측(Dense Temporal Value Estimation) 능력을 통해 로봇의 물리적 상호작용 신뢰성과 실행 인지도를 향상시키는 것을 목표로…

#Review #Embodied AI #Foundation Model #3D Spatial Reasoning #Temporal Value Estimation #Robotics #Manipulation #Multimodal Learning

2026년 1월 21일

[논문리뷰] UniX: Unifying Autoregression and Diffusion for Chest X-Ray Understanding and Generation

의료 영상 이해(semantic abstraction)와 생성(pixel-level reconstruction)이라는 근본적으로 상충하는 목표를 기존 파라미터 공유 방식의 단일 모델에서 통합할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Chest X-Ray #Medical Foundation Model #Autoregressive Model #Diffusion Model #Multimodal Learning #Image Understanding #Image Generation #Cross-Modal Attention

2026년 1월 20일

[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저 내에서 통합하는 핵심 과제를 해결하고자 합니다. 기존의 듀얼 인코더 방식의 복잡성과 이산형 토크나이저의 의미 이해 능력 저하 문제를 극복하고, 연속형 의미 특징 과 이산형 미세 토큰 을 동시에 생성할 수 있는 통합 토크나이저를 제안하는 것이 목표입니다.

#Review #Multimodal Learning #Vector Quantization #Autoencoder #Unified Tokenizer #Image Generation #Image Reconstruction #Vision Transformers #Semantic Features

2025년 12월 11일

[논문리뷰] UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving

자율 주행 시스템이 제한된 세계 지식 과 시각적 동적 모델링 부족 으로 인해 롱테일 시나리오에서 겪는 어려움을 해결하는 것이 목표입니다.

#Review #Autonomous Driving #End-to-End Learning #Vision-Language Models #World Model #Chain-of-Thought #Video Generation #Trajectory Planning #Multimodal Learning

2025년 12월 10일

[논문리뷰] InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models

본 연구는 기존 VLM의 이차적인 계산 복잡성과 증가하는 KV 캐시로 인한 장기 컨텍스트 이해 능력 및 배포 제약 문제를 해결하는 것을 목표로 합니다. 특히, 선형 어텐션의 정보 집약적 작업에서의 저조한 성능과 윈도우 기반 어텐션의 장기 기억 유지 부족이라는 한계를 극복하고자 합니다.

#Review #Vision-Language Models #Linear Attention #Sliding Window Attention #Gated DeltaNet #Long-Context Understanding #Efficiency #Hybrid Architecture #Multimodal Learning

2025년 12월 10일

[논문리뷰] Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

본 논문은 기존 Vision-Language-Action (VLA) 모델의 한계인 희소한 행동 감독 신호, 과도한 시각 상태 예측 비용, 정보 병목 현상, 그리고 언어 감독 부족으로 인한 이해 및 추론 능력 저하를 해결하고자 합니다.

#Review #Vision-Language-Action (VLA) Models #Visual Foresight #Diffusion Transformer (DiT)#Robotics #Multimodal Learning #Adaptive Temporal Ensemble #Latent Actions

2025년 11월 23일

[논문리뷰] Downscaling Intelligence: Exploring Perception and Reasoning Bottlenecks in Small Multimodal Models

본 연구는 대규모 다중모달 모델(MLLM)의 크기를 축소할 때 발생하는 지능 저하 현상을 체계적으로 분석하고, 특히 어떤 기능이 가장 큰 영향을 받는지, 그리고 그 원인이 무엇인지 밝히는 것을 목표로 합니다.

#Review #Small Multimodal Models #LLM Downscaling #Perception Bottleneck #Reasoning Bottleneck #Visual Extraction Tuning #Chain-of-Thought Reasoning #Multimodal Learning

2025년 11월 23일

[논문리뷰] MiMo-Embodied: X-Embodied Foundation Model Technical Report

이 논문은 자율 주행(Autonomous Driving)과 인공지능(Embodied AI) 두 가지 핵심 도메인을 단일 모델 로 통합하는 최초의 오픈소스 크로스-엠바디드 파운데이션 모델(MiMo-Embodied) 을 개발하는 것을 목표로 합니다.

#Review #Vision-Language Model (VLM)#Embodied AI #Autonomous Driving #Foundation Model #Multimodal Learning #Task Planning #Affordance Prediction #Spatial Understanding #Reinforcement Learning

2025년 11월 20일

[논문리뷰] ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

본 논문은 기존 비디오 챕터링 방법론이 짧고 거친 주석에 의해 제한되어 장시간 비디오의 미묘한 전환에 대한 일반화가 어렵다는 문제를 해결하고자 합니다.

#Review #Video Chaptering #Long-form Video Understanding #Large Language Models #Multimodal Learning #Hierarchical Summarization #Video Segmentation #Reinforcement Learning #Dataset Creation

2025년 11월 19일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents

본 논문은 데스크톱 컴퓨터 사용 에이전트(CUAs) 연구의 세 가지 주요 격차(실세계 CUA 태스크 부족, 자동화된 데이터 수집 및 주석 파이프라인 부재, 통합 벤치마크 부족)를 해결하는 것을 목표로 합니다.

#Review #Computer-Using Agents #GUI Grounding #Screen Parsing #Action Prediction #Desktop Automation #Dataset #Benchmark #Multimodal Learning #LLM-augmented Data

2025년 11월 9일

[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process

기존 VLA(Vision-Language-Action) 모델이 비전 생성 및 행동 예측을 분리하여 다루거나 외부 전문가에 의존하는 한계를 극복하는 것을 목표로 합니다.

#Review #Vision-Language-Action (VLA)#Diffusion Models #Discrete Denoising #Multimodal Learning #Robotics #Embodied AI #Joint Generation #Action Prediction

2025년 11월 9일

[논문리뷰] UniREditBench: A Unified Reasoning-based Image Editing Benchmark

기존 이미지 편집 벤치마크의 한계, 즉 단일 객체 속성 변환에만 집중 하고 멀티 객체 상호작용 및 게임 세계 시나리오를 간과 하며 텍스트 기반 평가의 신뢰성 부족 문제를 해결하는 것을 목표로 합니다.

#Review #Image Editing #Reasoning-based AI #Benchmark #Multimodal Learning #Chain-of-Thought (CoT)#Dual-Reference Evaluation #Generative Models #Game AI

2025년 11월 9일

[논문리뷰] Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model

본 논문은 세계 모델이 증강된 Vision-Language-Action (VLA) 모델에서 차세대 관측 및 액션 시퀀스를 공동으로 예측하는 데 내재된 모달리티 충돌 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #World Models #Diffusion Models #Multimodal Learning #Robotics #Asynchronous Sampling #Diffusion Transformers

2025년 11월 9일

[논문리뷰] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model

VLA(Vision-Language-Action) 모델이 대규모 VLM(Vision-Language Model)과 광범위한 사전 훈련에 크게 의존하여 발생하는 높은 훈련 비용, 느린 미세 조정, 과도한 VRAM 사용 및 낮은 추론 효율성 문제를 해결하는 것을 목표로 합니다.

#Review #Vision-Language-Action Models #Robotics #Multimodal Learning #Efficient AI #Model Adaptation #Bridge Attention #Low-resource Training

2025년 9월 12일

[논문리뷰] Interleaving Reasoning for Better Text-to-Image Generation

본 논문은 기존 텍스트-이미지(T2I) 생성 모델의 명령어 준수 및 세부 묘사 능력 한계를 극복하는 것을 목표로 합니다. 특히, 인터리빙 추론(Interleaving Reasoning) 메커니즘을 통합하여 T2I 생성의 시각적 품질과 미세한 디테일 표현을 향상시키는 방안을 탐구합니다.

#Review #Text-to-Image Generation #Interleaving Reasoning #Multimodal Learning #Visual Quality #Fine-grained Detail #Diffusion Models #Self-Correction

2025년 9월 9일

[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

OpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision Encoder #Generative Pretraining #Captioning Loss #Training Efficiency #Image-Text Models #Large Language Models

2025년 9월 3일

[논문리뷰] Improving Large Vision and Language Models by Learning from a Panel of Peers

본 논문은 대규모 시각-언어 모델(LVLMs)의 성능을 향상시키기 위해 고가의 인간 주석 데이터에 대한 의존성을 줄이는 새로운 자체 개선 프레임워크인 'Panel-of-Peers(PoP)'를 제안합니다.

#Review #Large Vision and Language Models (LVLMs)#Self-Improvement #Peer Learning #Preference Alignment #Reward Modeling #Multimodal Learning #Knowledge Transfer

2025년 9월 3일

[논문리뷰] Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

기존 대규모 시각-언어 모델(LVLM)의 핵심 병목인 고비용의 정렬 사전 훈련(alignment pre-training) 단계를 제거 하고, 시각 정보를 이산적인 텍스트 토큰 공간에 강제로 매핑함으로써 발생하는 정보 손실 문제 를 해결하는 것을 목표로 합니다.

#Review #Multimodal Learning #Vision-Language Models #Alignment Pre-training #Text-to-Vision Mapping #Continuous Representations #Computational Efficiency #LLM

2025년 8월 19일

[논문리뷰] NextStep-1: Toward Autoregressive Image Generation with Continuous Tokens at Scale

이 논문은 텍스트-이미지 생성 분야에서 기존 autoregressive (AR) 모델이 직면한 양자화 손실 및 무거운 확산 모델 의존성 의 한계를 극복하고자 합니다.

#Review #Autoregressive Models #Text-to-Image Generation #Continuous Latent Tokens #Flow Matching #Image Editing #Multimodal Learning #Transformer Architecture

2025년 8월 15일

[논문리뷰] Adapting Vision-Language Models Without Labels: A Comprehensive Survey

본 서베이 논문은 레이블링된 데이터 없이 사전 훈련된 Vision-Language Models (VLMs) 를 특정 다운스트림 태스크에 적용할 때 발생하는 성능 저하 문제를 해결하고자 합니다.

#Review #Vision-Language Models (VLMs)#Unsupervised Adaptation #Test-Time Adaptation (TTA)#Domain Transfer #Multimodal Learning #Label-Free Learning #Zero-Shot Learning

2025년 8월 11일

[논문리뷰] Multimodal Referring Segmentation: A Survey

이 논문은 이미지, 비디오, 3D 장면과 같은 다양한 시각적 맥락에서 텍스트 또는 오디오 참조 표현을 기반으로 특정 객체를 분할하는 다중모드 참조 분할(Multimodal Referring Segmentation) 분야에 대한 포괄적인 최신 조사를 제공하는 것을 목표로 합니다.

#Review #Multimodal Learning #Referring Segmentation #Vision-Language Models #Image Segmentation #Video Segmentation #3D Vision #Survey

2025년 8월 4일

[논문리뷰] The Quest for Generalizable Motion Generation: Data, Model, and Evaluation

본 논문은 3D 인간 모션 생성(MoGen) 모델이 기존 벤치마크에서는 뛰어난 성능을 보이나, 다양하고 새로운 명령에 대한 일반화 능력 이 현저히 부족하다는 근본적인 문제점을 해결하고자 합니다.

#Review #Motion Generation #Generalization #Diffusion Models #Transformer #Large-scale Dataset #Benchmark #Multimodal Learning #Video Generation

2025년 10월 31일

[논문리뷰] ChartAB: A Benchmark for Chart Grounding & Dense Alignment

기존 VLM이 차트의 세부 정보를 정확하게 인지하고 미세한 구조를 추출하는 데 어려움을 겪어 다중 차트 비교 및 추론 능력이 부족하다는 문제를 해결합니다.

#Review #Vision-Language Models (VLMs)#Chart Understanding #Visual Grounding #Dense Alignment #Benchmark #Robustness #Multimodal Learning

2025년 10월 31일

[논문리뷰] Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents

본 논문은 기존 API 또는 GUI 기반 접근 방식의 한계로 인한 확장성 및 일반화 능력 부족 문제를 해결하고자 합니다.

#Review #Generalist AI #Game Agents #Multimodal Learning #Foundation Models #ReAct #Sparse Thinking #Continual Pre-training #Human-Native Interaction

2025년 10월 29일

[논문리뷰] Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

본 연구는 단일 모달리티 학습의 한계를 넘어, 인간의 다감각 시너지 학습에서 영감을 받아 2D 이미지 와 3D 포인트 클라우드 의 공동 자기 지도 학습을 통해 더 풍부하고 일관된 공간 표현 을 습득하는 것을 목표로 합니다.

#Review #Self-Supervised Learning #2D-3D Fusion #Spatial Representation #Point Cloud #Image Features #Multimodal Learning #Semantic Segmentation #LoRA

2025년 10월 28일

[논문리뷰] From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

본 논문은 기존의 모듈형 Vision-Language Models (VLMs)이 가진 강한 시각적 인코딩 편향과 복잡한 인프라 문제를 해결하고, 초기 퓨전 방식의 단일(monolithic) VLM 아키텍처인 '네이티브 VLM'의 근본적인 제약을 극복하는 것을 목표로 합니다.

#Review #Vision-Language Models #Native VLMs #Early Fusion #Multimodal Learning #Transformer Architecture #Rotary Position Embeddings #Pixel-Word Alignment #End-to-End Training

2025년 10월 17일

[논문리뷰] InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy

본 논문은 로봇이 지시를 이해하고 3D 공간에서 행동하는 데 필요한 본질적인 격차를 해소하여, 확장 가능하고 범용적인 지능을 갖춘 지시-추종 로봇을 개발하는 것을 목표로 합니다.

#Review #Robotics #Vision-Language-Action (VLA)#Spatial Grounding #Generalist Policy #Multimodal Learning #Instruction Following #Simulation-to-Real #Diffusion Models

2025년 10월 16일

[논문리뷰] UniFusion: Vision-Language Model as Unified Encoder in Image Generation

기존 이미지 생성 모델들이 이미지와 텍스트에 대해 분리된 인코더를 사용하는 한계를 극복하고, 크로스-모달 추론 및 지식 전이 능력을 향상시키는 것을 목표로 합니다.

#Review #Vision-Language Model #Unified Encoder #Image Generation #Diffusion Models #Multimodal Learning #Text-to-Image #Image Editing #Zero-shot Learning

2025년 10월 15일

[논문리뷰] SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

기존 멀티모달 임베딩 모델의 한계인 제한된 모달리티 지원, 불안정한 학습 메커니즘, 산업 도메인 간극을 해결하는 것을 목표로 합니다. 이를 통해 다양한 실세계 시나리오에서 효과적인 옴니모달 임베딩(omni-modal embedding) 을 제공하는 SAIL-Embedding 이라는 파운데이션 모델을 제안합니다.

#Review #Omni-modal Embedding #Multimodal Learning #Recommendation Systems #Hard Negative Mining #Contrastive Learning #Large Language Models (LLMs)#Data Balancing #Multitask Learning

2025년 10월 15일

[논문리뷰] Towards Scalable and Consistent 3D Editing

3D 에셋의 기하학적 형태나 외관을 로컬하게 수정하는 3D 편집 태스크에서 발생하는 주요 난제들을 해결하는 것을 목표로 합니다.

#Review #3D Editing #Generative Models #Transformer Architecture #Dataset Generation #Multimodal Learning #Conditional Generation #Image-to-3D

2025년 10월 10일

[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models

이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.

#Review #World Models #Generative AI #Multimodal Learning #Masked Modeling #Interactive AI #Memory Systems #Autonomous Agents #AI Roadmap

2025년 10월 24일

[논문리뷰] VideoAgentTrek: Computer Use Pretraining from Unlabeled Videos

본 연구는 GUI(Graphical User Interface) 에이전트 훈련에 필요한 대규모의 수동 주석된 상호작용 데이터 확보의 어려움을 해결하고자 합니다.

#Review #GUI Agents #Video Pretraining #Inverse Dynamics #Action Recognition #Computer Use Automation #Data Synthesis #Multimodal Learning

2025년 10월 23일

[논문리뷰] Unified Reinforcement and Imitation Learning for Vision-Language Models

본 논문은 대규모 Vision-Language Models (VLMs) 의 비효율성을 해결하기 위해, 리소스가 제한된 환경에서도 강력하고 경량화된 VLM을 구축하는 효율적인 훈련 알고리즘 Unified Reinforcement and Imitation Learning (RIL) 을 제안합니다.

#Review #Vision-Language Models #Reinforcement Learning #Imitation Learning #Model Distillation #Lightweight VLMs #LLM-as-a-Judge #Multimodal Learning

2025년 10월 23일