[논문리뷰] LongCat-Next: Lexicalizing Modalities as Discrete TokensarXiv에 게시된 'LongCat-Next: Lexicalizing Modalities as Discrete Tokens' 논문에 대한 자세한 리뷰입니다.#Review#Multimodality#Autoregressive Modeling#Discrete Tokenization#Vision Transformer#Audio Tokenization#Mixture-of-Experts#Next-Token Prediction2026년 3월 31일댓글 수 로딩 중
[논문리뷰] It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker RemovalarXiv에 게시된 'It Takes Two: A Duet of Periodicity and Directionality for Burst Flicker Removal' 논문에 대한 자세한 리뷰입니다.#Review#Flicker Removal#Vision Transformer#Phase Correlation#Autocorrelation#Wavelet Transform#Burst Photography2026년 3월 31일댓글 수 로딩 중
[논문리뷰] Layer by layer, module by module: Choose both for optimal OOD probing of ViTIevgen Redko이 arXiv에 게시한 'Layer by layer, module by module: Choose both for optimal OOD probing of ViT' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Out-of-Distribution#Linear Probing#Distribution Shift#Foundation Models#Intermediate Layers#Module Analysis2026년 3월 8일댓글 수 로딩 중
[논문리뷰] Locality-Attending Vision TransformerarXiv에 게시된 'Locality-Attending Vision Transformer' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Semantic Segmentation#Attention Mechanism#Locality Bias#Gaussian Kernel#Patch Representation#Foundation Models2026년 3월 5일댓글 수 로딩 중
[논문리뷰] OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal IntelligencearXiv에 게시된 'OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal AI#Video Understanding#Sparse Attention#Vision Transformer#Codec-Aligned Processing#Self-Supervised Learning#Predictive Coding#Efficient AI2026년 2월 15일댓글 수 로딩 중
[논문리뷰] UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local AttendersarXiv에 게시된 'UPLiFT: Efficient Pixel-Dense Feature Upsampling with Local Attenders' 논문에 대한 자세한 리뷰입니다.#Review#Feature Upsampling#Local Attender#Pixel-Dense Features#Iterative Upsampling#Vision Transformer#Efficiency#Generative AI#Semantic Segmentation2026년 1월 28일댓글 수 로딩 중
[논문리뷰] OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and GenerationarXiv에 게시된 'OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Unified Visual Encoder#Image Understanding#Image Generation#VAE#Vision Transformer#Multimodal Learning#Reconstruction#Contrastive Learning2026년 1월 22일댓글 수 로딩 중
[논문리뷰] InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit FieldsarXiv에 게시된 'InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields' 논문에 대한 자세한 리뷰입니다.#Review#Depth Estimation#Neural Implicit Fields#Arbitrary Resolution#Fine-Grained#Novel View Synthesis#Vision Transformer#Synth4K Benchmark2026년 1월 6일댓글 수 로딩 중
[논문리뷰] Next-Embedding Prediction Makes Strong Vision LearnersarXiv에 게시된 'Next-Embedding Prediction Makes Strong Vision Learners' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Generative Pretraining#Vision Transformer#Next-Embedding Prediction#Autoregressive Model#Image Classification#Semantic Segmentation#Causal Masking2025년 12월 18일댓글 수 로딩 중
[논문리뷰] HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge DevicesYuhang Dong이 arXiv에 게시한 'HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Large Language Model#Edge AI#Efficient Inference#Visual Resolution Compressor#Dual Consistency Learning#Vision Transformer#Quantization#Low-Latency2025년 12월 17일댓글 수 로딩 중
[논문리뷰] Towards Scalable Pre-training of Visual Tokenizers for GenerationarXiv에 게시된 'Towards Scalable Pre-training of Visual Tokenizers for Generation' 논문에 대한 자세한 리뷰입니다.#Review#Visual Tokenizers#Pre-training#Latent Diffusion Models#Generative Models#Vision Transformer#Contrastive Learning#Self-Supervised Learning#Scaling Laws2025년 12월 15일댓글 수 로딩 중
[논문리뷰] Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent DiffusionarXiv에 게시된 'Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion' 논문에 대한 자세한 리뷰입니다.#Review#Latent Diffusion Models#Asynchronous Denoising#Semantic Modeling#Texture Modeling#Image Generation#Vision Transformer#VAE#Fast Convergence2025년 12월 4일댓글 수 로딩 중
[논문리뷰] Vision Bridge Transformer at ScaleXinchao Wang이 arXiv에 게시한 'Vision Bridge Transformer at Scale' 논문에 대한 자세한 리뷰입니다.#Review#Vision Transformer#Bridge Models#Conditional Generation#Image Editing#Video Translation#Velocity Matching#Diffusion Models#Scalability2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Φeat: Physically-Grounded Feature RepresentationarXiv에 게시된 'Φeat: Physically-Grounded Feature Representation' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Physically-Grounded Features#Material Representation#Intrinsic Scene Understanding#Vision Transformer#Synthetic Data#Contrastive Learning2025년 11월 18일댓글 수 로딩 중
[논문리뷰] OlmoEarth: Stable Latent Image Modeling for Multimodal Earth ObservationarXiv에 게시된 'OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation' 논문에 대한 자세한 리뷰입니다.#Review#Earth Observation#Foundation Model#Multimodal Learning#Self-supervised Learning#Latent Image Modeling#Vision Transformer#Spatio-temporal2025년 11월 17일댓글 수 로딩 중
[논문리뷰] DA^2: Depth Anything in Any DirectionarXiv에 게시된 'DA^2: Depth Anything in Any Direction' 논문에 대한 자세한 리뷰입니다.#Review#Panoramic Depth Estimation#Zero-shot Generalization#Data Curation#SphereViT#Spherical Geometry#360-degree Imaging#Vision Transformer2025년 10월 1일댓글 수 로딩 중
[논문리뷰] Real-Time Object Detection Meets DINOv3Xi Shen이 arXiv에 게시한 'Real-Time Object Detection Meets DINOv3' 논문에 대한 자세한 리뷰입니다.#Review#Real-time Object Detection#DINOv3#DEIMv2#Vision Transformer#Multi-scale Features#Spatial Tuning Adapter#Lightweight Models#Object Detection Framework2025년 9월 29일댓글 수 로딩 중
[논문리뷰] Curia: A Multi-Modal Foundation Model for RadiologyElodie Ferreres이 arXiv에 게시한 'Curia: A Multi-Modal Foundation Model for Radiology' 논문에 대한 자세한 리뷰입니다.#Review#Foundation Model#Radiology#Computed Tomography (CT)#Magnetic Resonance Imaging (MRI)#Self-supervised Learning#Vision Transformer#Cross-Modality Generalization2025년 9월 10일댓글 수 로딩 중
[논문리뷰] Does DINOv3 Set a New Medical Vision Standard?Bailiang Jian이 arXiv에 게시한 'Does DINOv3 Set a New Medical Vision Standard?' 논문에 대한 자세한 리뷰입니다.#Review#Medical Imaging#Foundation Models#DINOv3#Self-Supervised Learning#Vision Transformer#2D/3D Classification#Segmentation#Domain Adaptation#Scaling Laws2025년 9월 9일댓글 수 로딩 중
[논문리뷰] M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-SupervisionYan-Jie Zhou이 arXiv에 게시한 'M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision' 논문에 대한 자세한 리뷰입니다.#Review#Medical Image Retrieval#Self-Supervised Learning#Multimodal#Zero-shot#Foundation Models#MAE#SimDINO#Vision Transformer2025년 9월 3일댓글 수 로딩 중
[논문리뷰] DINOv3Maxime Oquab이 arXiv에 게시한 'DINOv3' 논문에 대한 자세한 리뷰입니다.#Review#Self-supervised Learning#Foundation Models#Vision Transformer#Dense Feature Maps#Gram Anchoring#Model Distillation#Geospatial AI2025년 8월 18일댓글 수 로딩 중