#Dense Prediction

4개의 포스트

[논문리뷰] Phase Marginalization for Patch-Grid Instability in Vision Transformers

본 논문은 Vision Transformers(ViT)의 패치화(patchification) 과정에서 발생하는 patch-grid phase instability 문제를 해결하고자 한다.

#Review #Vision Transformers #Patch-Grid Phase #Dense Prediction #Phase Marginalization #Test-Time Augmentation #Aliasing

2026년 6월 8일

[논문리뷰] MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models

최근 VFM은 다양한 task에서 강력한 representation을 제공하며 컴퓨터 비전 분야의 핵심으로 자리 잡았습니다.

#Review #Vision Foundation Models (VFMs)#Multi-Resolution Fusion (MuRF)#Dense Prediction #Anomaly Detection #Multimodal Understanding #Scale-Robust Representation

2026년 3월 26일

[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens

기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens #Multimodal Reasoning #Perceptual Grounding #Visual Thinking #Dense Prediction

2025년 11월 24일

[논문리뷰] Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs

기존 MLLM이 시각 작업을 위해 텍스트로 좌표를 생성하는 등 간접적인 표현 방식 에 의존하여 성능이 제한되고 분할(Segmentation)과 같은 밀집 예측(Dense Prediction) 작업 이 어려웠던 문제를 해결하는 것입니다.

#Review #Multimodal Large Language Models (MLLMs)#Visual Reference Tokens (VRTs)#Dense Prediction #Referring Expression Comprehension (REC)#Open-Vocabulary Detection (OVD)#Image Captioning #Unified Architecture #Autoregressive Generation

2025년 10월 9일