[논문리뷰] Phase Marginalization for Patch-Grid Instability in Vision Transformers본 논문은 Vision Transformers(ViT)의 패치화(patchification) 과정에서 발생하는 patch-grid phase instability 문제를 해결하고자 한다.#Review#Vision Transformers#Patch-Grid Phase#Dense Prediction#Phase Marginalization#Test-Time Augmentation#Aliasing2026년 6월 8일댓글 수 로딩 중
[논문리뷰] Tunable Soft Equivariance with Guarantees본 논문은 기존의 엄격한 등가성 설계가 실제 데이터의 노이즈나 변형에 유연하게 대응하지 못해 모델의 표현력(Expressiveness)을 저하시키는 문제를 해결하고자 합니다.#Review#Soft Equivariance#Group Equivariance#Weight Projection#Tunable#Equivariance Error#Vision Transformers#Canonicalization2026년 4월 8일댓글 수 로딩 중
[논문리뷰] Steerable Visual Representations저자들은 텍스트 프롬프트로 ViT의 내부 레이어를 직접 제어하는 SteerViT를 제안합니다. SteerViT는 frozen된 ViT 블록들 사이에 21M 개의 파라미터만 추가하는 경량화된 cross-attention 레이어를 삽입하여 텍스트 정보를 주입합니다 .#Review#Steerable Visual Representations#Vision Transformers#Early Fusion#Cross-Attention#Text-Conditioned Vision#Representational Quality#Zero-Shot Generalization2026년 4월 2일댓글 수 로딩 중
[논문리뷰] VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction멀티모달 이해, 생성 및 재구성 표현을 단일 토크나이저 내에서 통합하는 핵심 과제를 해결하고자 합니다. 기존의 듀얼 인코더 방식의 복잡성과 이산형 토크나이저의 의미 이해 능력 저하 문제를 극복하고, 연속형 의미 특징 과 이산형 미세 토큰 을 동시에 생성할 수 있는 통합 토크나이저를 제안하는 것이 목표입니다.#Review#Multimodal Learning#Vector Quantization#Autoencoder#Unified Tokenizer#Image Generation#Image Reconstruction#Vision Transformers#Semantic Features2025년 12월 11일댓글 수 로딩 중
[논문리뷰] The Collapse of Patches본 연구는 이미지 내 패치들 간의 상호 의존성을 분석하여 '패치 붕괴(patch collapse)' 라는 새로운 개념을 제안하고, 이를 통해 이미지의 불확실성을 가장 효율적으로 줄이는 최적의 패치 실현 순서 를 파악하는 것을 목표로 합니다.#Review#Patch Collapse#Image Generation#Image Classification#Masked Image Modeling#Vision Transformers#PageRank#Uncertainty Reduction#Computational Efficiency2025년 11월 30일댓글 수 로딩 중
[논문리뷰] Large Language Models Meet Extreme Multi-label Classification: Scaling and Multi-modal Framework본 연구는 Extreme Multi-label Classification (XMC)에서 Large Language Models (LLMs) 의 잠재력을 효과적으로 활용하고, 시각적 정보 를 효율적으로 통합하여 성능을 향상하는 것을 목표로 합니다.#Review#Extreme Multi-label Classification (XMC)#Large Language Models (LLMs)#Multi-modal Learning#Dual-decoder Learning#Vision Transformers#Contrastive Learning#Prompt Engineering2025년 11월 18일댓글 수 로딩 중
[논문리뷰] One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework본 논문은 기존의 이미지 전체 기반(image-centric) 제로샷 캡셔닝 모델이 지역 단위 캡셔닝에서 낮은 성능을 보이는 문제를 해결하고자 합니다.#Review#Zero-Shot Captioning#Region-Level Captioning#Vision Transformers#DINOv2#Patch-Centric#Modality Gap Mitigation#Visual-Language Models2025년 10월 13일댓글 수 로딩 중