[논문리뷰] Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders본 논문은 컴퓨팅 자원이 제한된 환경(모바일, 엣지 디바이스)에서 VLM(Vision Language Model) 배포를 저해하는 모델 크기 확장의 문제를 해결하고자 합니다.#Review#Vision Language Model (VLM)#LLM-based Vision Encoder#Efficient AI#Multimodal Understanding#Generative Pretraining#Resource-constrained Deployment#Temporal Reasoning2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Learning from Next-Frame Prediction: Autoregressive Video Modeling Encodes Effective Representations기존 시각 생성 사전 훈련 방법론이 비디오의 핵심적인 시간 정보를 간과하거나, 자기회귀 방식이 의미론적 부정확성 및 낮은 생성 품질을 겪는 문제를 해결합니다.#Review#Autoregressive Model#Video Modeling#Generative Pretraining#Representation Learning#Flow-Matching Decoder#Context Isolation#Masked Next-Frame Prediction2025년 12월 24일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal LearningOpenVision 2는 기존 OpenVision 아키텍처와 손실 함수의 복잡성을 단순화하여 멀티모달 학습을 위한 시각 인코더의 훈련 효율성을 대폭 향상시키는 것을 목표로 합니다.#Review#Multimodal Learning#Vision Encoder#Generative Pretraining#Captioning Loss#Training Efficiency#Image-Text Models#Large Language Models2025년 9월 3일댓글 수 로딩 중
[논문리뷰] Scaling Language-Centric Omnimodal Representation Learning본 논문은 MLLM(Multimodal Large Language Model) 기반 임베딩 모델의 우수한 성능이 전통적인 CLIP-스타일 모델 에 비해 가지는 근본적인 이유를 탐구합니다.#Review#Multimodal Embeddings#MLLMs#Contrastive Learning#Cross-modal Alignment#Generative Pretraining#Representation Learning#Scaling Laws2025년 10월 15일댓글 수 로딩 중