[논문리뷰] Phase Marginalization for Patch-Grid Instability in Vision Transformers본 논문은 Vision Transformers(ViT)의 패치화(patchification) 과정에서 발생하는 patch-grid phase instability 문제를 해결하고자 한다.#Review#Vision Transformers#Patch-Grid Phase#Dense Prediction#Phase Marginalization#Test-Time Augmentation#Aliasing2026년 6월 8일댓글 수 로딩 중
[논문리뷰] MuRF: Unlocking the Multi-Scale Potential of Vision Foundation Models최근 VFM은 다양한 task에서 강력한 representation을 제공하며 컴퓨터 비전 분야의 핵심으로 자리 잡았습니다.#Review#Vision Foundation Models (VFMs)#Multi-Resolution Fusion (MuRF)#Dense Prediction#Anomaly Detection#Multimodal Understanding#Scale-Robust Representation2026년 3월 26일댓글 수 로딩 중
[논문리뷰] Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens기존 VLM이 이산적인 텍스트 기반 추론에 국한되어 공간 추론 및 기하학적 인식과 같은 미세한 시각적 이해가 필요한 작업에서 어려움을 겪는 문제를 해결하는 것이 목표입니다.#Review#Vision-Language Models (VLMs)#Chain-of-Thought (CoT)#Continuous Visual Tokens#Multimodal Reasoning#Perceptual Grounding#Visual Thinking#Dense Prediction2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs기존 MLLM이 시각 작업을 위해 텍스트로 좌표를 생성하는 등 간접적인 표현 방식 에 의존하여 성능이 제한되고 분할(Segmentation)과 같은 밀집 예측(Dense Prediction) 작업 이 어려웠던 문제를 해결하는 것입니다.#Review#Multimodal Large Language Models (MLLMs)#Visual Reference Tokens (VRTs)#Dense Prediction#Referring Expression Comprehension (REC)#Open-Vocabulary Detection (OVD)#Image Captioning#Unified Architecture#Autoregressive Generation2025년 10월 9일댓글 수 로딩 중