[논문리뷰] Let ViT Speak: Generative Language-Image Pre-training본 논문은 기존 MLLM용 vision encoder 학습 방식인 contrastive learning과 복잡한 encoder-decoder 구조의 한계를 극복하고자 합니다.#Review#Vision Transformer#Generative Pre-training#Multimodal Large Language Models#Gated Attention#Vision-Language Pre-training#Minimalist Architecture2026년 5월 3일댓글 수 로딩 중
[논문리뷰] TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders본 논문은 Deep Compression 오토인코더에서 발생하는 잠재 표현의 붕괴(Latent Representation Collapse) 문제를 해결하여 생성 성능을 개선하고자 합니다.#Review#Vision Transformer#Deep Compression#Autoencoder#Latent Diffusion Models#Token Scaling#Staged Token Compression#Self-Supervised Learning2026년 4월 8일댓글 수 로딩 중
[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete Tokens기존의 멀티모달 시스템은 주로 언어 중심의 모델에 비언어적 모달리티를 외부 부착물(bolt-on) 형태로 결합하는 방식에 의존하여, 구조적 파편화와 최적화의 한계가 존재했습니다. 또한, 이산적 비전 모델링은 압축 과정에서의 정보 손실로 인해 성능의 상한선(ceiling)이 존재한다는 인식이 지배적이었습니다.#Review#Multimodality#Autoregressive Modeling#Discrete Tokenization#Vision Transformer#Audio Tokenization#Mixture-of-Experts#Next-Token Prediction2026년 3월 31일댓글 수 로딩 중
[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal기존의 generic restoration 프레임워크는 flicker가 가진 물리적 특성인 주기성과 방향성을 고려하지 않아 복원 성능이 제한적이거나 ghosting artifact를 유발하는 문제가 있습니다 .#Review#Flicker Removal#Vision Transformer#Phase Correlation#Autocorrelation#Wavelet Transform#Burst Photography2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViT사전 훈련된 Vision Transformer (ViT) 의 중간 레이어 행동을 심층적으로 분석하고, 분포 변화(distribution shift) 상황에서 어떤 레이어와 모듈이 최적의 선형 프로빙(linear probing) 성능을 보이는지 규명하는 것을 목표로 합니다.#Review#Vision Transformer#Out-of-Distribution#Linear Probing#Distribution Shift#Foundation Models#Intermediate Layers#Module Analysis2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Locality-Attending Vision Transformer본 논문은 이미지 분류 훈련 후 Vision Transformer (ViT)의 dense prediction 성능, 특히 segmentation 성능을 향상 시키는 것을 목표로 합니다.#Review#Vision Transformer#Semantic Segmentation#Attention Mechanism#Locality Bias#Gaussian Kernel#Patch Representation#Foundation Models2026년 3월 5일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence본 논문은 현대 비전 아키텍처가 시각 신호의 본질적인 중복성과 변별 정보의 희소성을 효율적으로 다루지 못한다는 문제의식에서 출발합니다.#Review#Multimodal AI#Video Understanding#Sparse Attention#Vision Transformer#Codec-Aligned Processing#Self-Supervised Learning#Predictive Coding#Efficient AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders본 연구는 사전 훈련된 비전 백본으로부터 밀도 높은 특징(dense features)을 효율적으로 생성하는 과정에서 발생하는 계산 비용 문제 를 해결하고자 합니다.#Review#Feature Upsampling#Local Attender#Pixel-Dense Features#Iterative Upsampling#Vision Transformer#Efficiency#Generative AI#Semantic Segmentation2026년 1월 28일댓글 수 로딩 중
[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation본 논문은 이미지 이해(understanding)와 생성(generation) 모두에 활용될 수 있는 단일하고 통합된 시각적 표현을 학습하는 고급 비전 인코더인 OpenVision 3 를 제안합니다.#Review#Unified Visual Encoder#Image Understanding#Image Generation#VAE#Vision Transformer#Multimodal Learning#Reconstruction#Contrastive Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields기존의 이산적인 이미지 그리드 기반 깊이 추정 방식이 가지는 해상도 확장성 및 기하학적 세부 정보 복구의 한계를 극복하는 것을 목표로 합니다.#Review#Depth Estimation#Neural Implicit Fields#Arbitrary Resolution#Fine-Grained#Novel View Synthesis#Vision Transformer#Synth4K Benchmark2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision Learners본 논문은 자연어 처리 분야의 생성적 사전 훈련(generative pretraining) 성공 사례에서 영감을 받아, 다음 임베딩 예측(next-embedding prediction) 을 통해 비전 태스크에서 강력한 자기 지도 학습(self-supervised learning) 모델을 구축하는 것을 목표로 합니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices현재 멀티모달 대규모 언어 모델(MLLM)이 가진 높은 연산 및 메모리 요구사항으로 인한 온디바이스 배포의 어려움을 해결하는 것을 목표로 합니다.#Review#Multimodal Large Language Model#Edge AI#Efficient Inference#Visual Resolution Compressor#Dual Consistency Learning#Vision Transformer#Quantization#Low-Latency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for Generation본 논문은 시각 토크나이저(예: VAE)의 잠재 공간이 저수준 정보에 편향되어 고품질 생성으로 이어지지 않는 '사전 학습 스케일링 문제'를 해결하는 것을 목표로 합니다.#Review#Visual Tokenizers#Pre-training#Latent Diffusion Models#Generative Models#Vision Transformer#Contrastive Learning#Self-Supervised Learning#Scaling Laws2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion본 논문은 Latent Diffusion Models (LDMs)의 내재적인 문제점인 고수준 의미론(semantics)과 저수준 텍스처(texture) 모델링 간의 불균형을 해결하여 느린 수렴과 최적화되지 않은 생성 품질 문제를 개선하는 것을 목표로 합니다.#Review#Latent Diffusion Models#Asynchronous Denoising#Semantic Modeling#Texture Modeling#Image Generation#Vision Transformer#VAE#Fast Convergence2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Vision Bridge Transformer at Scale본 논문은 Brownian Bridge Models 를 대규모 비전 변환 태스크(이미지 및 비디오)에 적용하여 조건부 생성의 효율성을 극대화하는 것을 목표로 합니다.#Review#Vision Transformer#Bridge Models#Conditional Generation#Image Editing#Video Translation#Velocity Matching#Diffusion Models#Scalability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Φeat: Physically-Grounded Feature Representation기존의 자기 지도 시각 백본이 고수준의 의미론적 특징과 저수준의 물리적 요소를 혼합하여 물리적 추론을 방해하는 문제를 해결하고자 합니다.#Review#Self-supervised Learning#Physically-Grounded Features#Material Representation#Intrinsic Scene Understanding#Vision Transformer#Synthetic Data#Contrastive Learning2025년 11월 18일댓글 수 로딩 중
[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation본 논문은 공간적, 시간적, 다중 모달 특성을 지닌 지구 관측 데이터의 복잡성으로 인해 발생하는 기존 파운데이션 모델의 훈련 불안정성, 높은 비용, 그리고 비영리 부문의 낮은 실제 적용률 문제를 해결하는 것을 목표로 합니다.#Review#Earth Observation#Foundation Model#Multimodal Learning#Self-supervised Learning#Latent Image Modeling#Vision Transformer#Spatio-temporal2025년 11월 17일댓글 수 로딩 중
[논문리뷰] Real-Time Object Detection Meets DINOv3본 논문은 실시간 객체 탐지 분야에서 성능과 연산 효율성 사이의 균형을 개선하고, 특히 경량 모델을 위한 엣지 및 모바일 환경에서의 배포 효율성을 높이는 것을 목표로 합니다.#Review#Real-time Object Detection#DINOv3#DEIMv2#Vision Transformer#Multi-scale Features#Spatial Tuning Adapter#Lightweight Models#Object Detection Framework2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Curia: A Multi-Modal Foundation Model for Radiology기존 방사선과 AI 모델의 '원 태스크, 원 모델' 방식이 비효율적이고 일반화 능력이 부족하다는 문제를 해결하고자 합니다.#Review#Foundation Model#Radiology#Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning#Vision Transformer#Cross-Modality Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?본 연구는 자연 이미지로만 사전 훈련된 최신 Self-Supervised Vision Transformer인 DINOv3 가 도메인 특화된 사전 훈련 없이 의료 영상 태스크에서 강력하고 통합된 인코더로 활용될 수 있는지 종합적으로 평가하는 것을 목표로 합니다.#Review#Medical Imaging#Foundation Models#DINOv3#Self-Supervised Learning#Vision Transformer#2D/3D Classification#Segmentation#Domain Adaptation#Scaling Laws2025년 9월 9일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision의료 영상 분야에서 기존의 2D, 3D, 비디오 기반 데이터에 파편화된 모델 아키텍처 및 훈련 전략의 한계를 극복하고, 단일한 시각적 표현 학습 프레임워크를 통해 제로샷 멀티모달 의료 영상 검색 을 가능하게 하는 것이 목표입니다.#Review#Medical Image Retrieval#Self-Supervised Learning#Multimodal#Zero-shot#Foundation Models#MAE#SimDINO#Vision Transformer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] DINOv3본 연구는 수동 데이터 주석 없이 대규모 데이터셋 과 대규모 아키텍처 에 맞춰 모델을 확장하고, 단일 알고리즘으로 다양한 소스(자연 이미지부터 항공 이미지까지)에서 범용적인 시각 표현 을 학습하는 것을 목표로 합니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중
[논문리뷰] DA^2: Depth Anything in Any Direction파노라마 깊이 추정 분야에서 데이터 부족 , 제로샷 일반화 성능 저하 , 그리고 구형 왜곡 처리의 비효율성 이라는 세 가지 주요 문제를 해결하는 것을 목표로 합니다. 이를 통해 정확하고, 제로샷 일반화가 가능하며, 완전히 엔드-투-엔드 방식의 파노라마 깊이 추정 모델을 제시하고자 합니다.#Review#Panoramic Depth Estimation#Zero-shot Generalization#Data Curation#SphereViT#Spherical Geometry#360-degree Imaging#Vision Transformer2025년 10월 1일댓글 수 로딩 중