[논문리뷰] Tunable Soft Equivariance with GuaranteesRaymond A. Yeh이 arXiv에 게시한 'Tunable Soft Equivariance with Guarantees' 논문에 대한 자세한 리뷰입니다.#Review#Soft Equivariance#Group Equivariance#Weight Projection#Tunable#Equivariance Error#Vision Transformers#Canonicalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Steerable Visual Representations저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .#Review#Steerable Visual Representations#Vision Transformers#Early Fusion#Cross-Attention#Text-Conditioned Vision#Representational Quality#Zero-Shot Generalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and ReconstructionarXiv에 게시된 'VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Learning#Vector Quantization#Autoencoder#Unified Tokenizer#Image Generation#Image Reconstruction#Vision Transformers#Semantic Features2025년 12월 11일댓글 수 로딩 중
[논문리뷰] The Collapse of PatchesWeidong Cai이 arXiv에 게시한 'The Collapse of Patches' 논문에 대한 자세한 리뷰입니다.#Review#Patch Collapse#Image Generation#Image Classification#Masked Image Modeling#Vision Transformers#PageRank#Uncertainty Reduction#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal FrameworkarXiv에 게시된 'Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework' 논문에 대한 자세한 리뷰입니다.#Review#Extreme Multi-label Classification (XMC)#Large Language Models (LLMs)#Multi-modal Learning#Dual-decoder Learning#Vision Transformers#Contrastive Learning#Prompt Engineering2025년 11월 18일댓글 수 로딩 중
[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning FrameworkGiuseppe Amato이 arXiv에 게시한 'One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework' 논문에 대한 자세한 리뷰입니다.#Review#Zero-Shot Captioning#Region-Level Captioning#Vision Transformers#DINOv2#Patch-Centric#Modality Gap Mitigation#Visual-Language Models2025년 10월 13일댓글 수 로딩 중