#Vision Transformer

25개의 포스트

[논문리뷰] Vision Pretraining for Dense Spatial Perception

본 논문은 현대의 비전 파운데이션 모델들이 Semantic Invariance를 우선시하여 고밀도 공간 이해(Dense Spatial Perception) 능력이 부족하다는 문제를 해결하고자 한다 .

#Review #Vision Pretraining #Masked Boundary Modeling #Self-Supervised Learning #Dense Spatial Perception #Vision Transformer #Boundary-Forcing Masking #Categorical Reparameterization

2026년 7월 6일

[논문리뷰] MuSViT: A Foundation Vision Model for Sheet Music Representation

본 연구는 시각적 악보(Sheet Music) 데이터를 구조화된 디지털 포맷으로 변환하는 강력한 도메인 전용 Backbone 모델의 부재를 해결하고자 합니다.

#Review #Foundation Model #Vision Transformer #Sheet Music Recognition #Masked Autoencoders #Self-supervised Learning #Optical Music Recognition

2026년 6월 30일

[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training

본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.

#Review #Vision Transformer #Generative Pre-training #Multimodal Large Language Models #Gated Attention #Vision-Language Pre-training #Minimalist Architecture

2026년 5월 3일

[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.

#Review #Vision Transformer #Deep Compression #Autoencoder #Latent Diffusion Models #Token Scaling #Staged Token Compression #Self-Supervised Learning

2026년 4월 8일

[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens

기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.

#Review #Multimodality #Autoregressive Modeling #Discrete Tokenization #Vision Transformer #Audio Tokenization #Mixture-of-Experts #Next-Token Prediction

2026년 3월 31일

[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal

기존의 generic restoration 프레임워크는 flicker가 가진 물리적 특성인 주기성과 방향성을 고려하지 않아 복원 성능이 제한적이거나 ghosting artifact를 유발하는 문제가 있습니다 .

#Review #Flicker Removal #Vision Transformer #Phase Correlation #Autocorrelation #Wavelet Transform #Burst Photography

2026년 3월 31일

[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT

사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.

#Review #Vision Transformer #Out-of-Distribution #Linear Probing #Distribution Shift #Foundation Models #Intermediate Layers #Module Analysis

2026년 3월 8일

[논문리뷰] Locality-Attending Vision Transformer

본 논문은 이미지 분류 훈련 후 Vision Transformer (ViT)의 dense prediction 성능, 특히 segmentation 성능을 향상 시키는 것을 목표로 합니다.

#Review #Vision Transformer #Semantic Segmentation #Attention Mechanism #Locality Bias #Gaussian Kernel #Patch Representation #Foundation Models

2026년 3월 5일

[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.

#Review #Multimodal AI #Video Understanding #Sparse Attention #Vision Transformer #Codec-Aligned Processing #Self-Supervised Learning #Predictive Coding #Efficient AI

2026년 2월 15일

[논문리뷰] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders

본 연구는 사전 훈련된 비전 백본으로부터 밀도 높은 특징(dense features)을 효율적으로 생성하는 과정에서 발생하는 계산 비용 문제 를 해결하고자 합니다.

#Review #Feature Upsampling #Local Attender #Pixel-Dense Features #Iterative Upsampling #Vision Transformer #Efficiency #Generative AI #Semantic Segmentation

2026년 1월 28일

[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation

본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.

#Review #Unified Visual Encoder #Image Understanding #Image Generation #VAE #Vision Transformer #Multimodal Learning #Reconstruction #Contrastive Learning

2026년 1월 22일

[논문리뷰] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

기존의 이산적인 이미지 그리드 기반 깊이 추정 방식이 가지는 해상도 확장성 및 기하학적 세부 정보 복구의 한계를 극복하는 것을 목표로 합니다.

#Review #Depth Estimation #Neural Implicit Fields #Arbitrary Resolution #Fine-Grained #Novel View Synthesis #Vision Transformer #Synth4K Benchmark

2026년 1월 6일

[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners

본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Generative Pretraining #Vision Transformer #Next-Embedding Prediction #Autoregressive Model #Image Classification #Semantic Segmentation #Causal Masking

2025년 12월 18일

[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.

#Review #Multimodal Large Language Model #Edge AI #Efficient Inference #Visual Resolution Compressor #Dual Consistency Learning #Vision Transformer #Quantization #Low-Latency

2025년 12월 17일

[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation

본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.

#Review #Visual Tokenizers #Pre-training #Latent Diffusion Models #Generative Models #Vision Transformer #Contrastive Learning #Self-Supervised Learning #Scaling Laws

2025년 12월 15일

[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.

#Review #Latent Diffusion Models #Asynchronous Denoising #Semantic Modeling #Texture Modeling #Image Generation #Vision Transformer #VAE #Fast Convergence

2025년 12월 4일

[논문리뷰] Vision Bridge Transformer at Scale

본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.

#Review #Vision Transformer #Bridge Models #Conditional Generation #Image Editing #Video Translation #Velocity Matching #Diffusion Models #Scalability

2025년 11월 30일

[논문리뷰] Φeat: Physically-Grounded Feature Representation

기존의 자기 지도 시각 백본이 고수준의 의미론적 특징과 저수준의 물리적 요소를 혼합하여 물리적 추론을 방해하는 문제를 해결하고자 합니다.

#Review #Self-supervised Learning #Physically-Grounded Features #Material Representation #Intrinsic Scene Understanding #Vision Transformer #Synthetic Data #Contrastive Learning

2025년 11월 18일

[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation

본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.

#Review #Earth Observation #Foundation Model #Multimodal Learning #Self-supervised Learning #Latent Image Modeling #Vision Transformer #Spatio-temporal

2025년 11월 17일

[논문리뷰] Real-Time Object Detection Meets DINOv3

본 논문은 실시간 객체 탐지 분야에서 성능과 연산 효율성 사이의 균형을 개선하고, 특히 경량 모델을 위한 엣지 및 모바일 환경에서의 배포 효율성을 높이는 것을 목표로 합니다.

#Review #Real-time Object Detection #DINOv3 #DEIMv2 #Vision Transformer #Multi-scale Features #Spatial Tuning Adapter #Lightweight Models #Object Detection Framework

2025년 9월 29일

[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology

기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.

#Review #Foundation Model #Radiology #Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning #Vision Transformer #Cross-Modality Generalization

2025년 9월 10일

[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?

본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.

#Review #Medical Imaging #Foundation Models #DINOv3 #Self-Supervised Learning #Vision Transformer #2D/3D Classification #Segmentation #Domain Adaptation #Scaling Laws

2025년 9월 9일

[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.

#Review #Medical Image Retrieval #Self-Supervised Learning #Multimodal #Zero-shot #Foundation Models #MAE #SimDINO #Vision Transformer

2025년 9월 3일

[논문리뷰] DINOv3

본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.

#Review #Self-supervised Learning #Foundation Models #Vision Transformer #Dense Feature Maps #Gram Anchoring #Model Distillation #Geospatial AI

2025년 8월 18일

[논문리뷰] DA^2: Depth Anything in Any Direction

파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.

#Review #Panoramic Depth Estimation #Zero-shot Generalization #Data Curation #SphereViT #Spherical Geometry #360-degree Imaging #Vision Transformer

2025년 10월 1일