#Computer Vision

19개의 포스트

[논문리뷰] SceneAligner: 3D-Grounded Floorplan Localization in the Wild

본 논문은 대규모 환경 및 상업용 건물의 비정형(in-the-wild) 이미지 컬렉션 내에서 카메라 관측치를 2D floorplan에 로컬라이제이션하는 문제를 다룬다.

#Review #Floorplan Localization #3D Foundation Models #Cross-modal Correspondence #Density Map #LoRA #Computer Vision

2026년 5월 21일

[논문리뷰] Sparse Autoencoders enable Robust and Interpretable Fine-tuning of CLIP models

본 논문은 CLIP과 같은 대규모 vision-language 모델을 하위 태스크(downstream task)에 맞게 fine-tuning할 때 발생하는 OOD(Out-of-Distribution) 성능 저하 문제를 해결하고자 한다.

#Review #CLIP #Sparse Autoencoders #Robust Fine-tuning #Interpretability #Representational Drift #Computer Vision

2026년 5월 17일

[논문리뷰] MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

최근 multi-reference image generation 시스템은 하나의 이미지 내에서 여러 entity를 세밀하게 제어하는 기능에 대한 기대를 높이고 있다.

#Review #Multi-subject Generation #Attribute Misbinding #Image Generation #Benchmark #Evaluation Protocol #Deep Learning #Computer Vision

2026년 3월 24일

[논문리뷰] EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

기존의 Video Object Removal 방법론들은 주로 입력 마스크에 의존하여 객체를 제거하며, 이로 인해 객체가 유발하는 그림자(shadow), 반사(reflection), 변형(deformation)과 같은 복잡한 시각적 부수 효과(side effects)를 제대로 처리하지 못하는 한계가 있습니다 [cite: 1, Figure 2].

#Review #Video Object Removal #Video Object Insertion #Diffusion Models #Effect Erasing #Reciprocal Learning #Deep Learning #Computer Vision

2026년 3월 19일

[논문리뷰] Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

논문은 기존 모노큘러 3D 추적 방식의 한계점(희소한 점만 추적하거나 느린 최적화 기반 dense 추적)을 극복하는 것을 목표로 합니다.

#Review #3D Tracking #Dense Scene Flow #Monocular Video #World-centric #Feedforward Model #Deep Learning #Computer Vision #4D Reconstruction

2026년 3월 3일

[논문리뷰] In Pursuit of Pixel Supervision for Visual Pre-training

본 논문은 기존 자기 지도 학습(Self-Supervised Learning) 패러다임이 잠재 공간 목표(latent-space objectives)에 의존하거나 과도한 휴먼 큐레이션을 통해 편향을 도입하는 한계를 지적합니다.

#Review #Pixel Supervision #Self-Supervised Learning #Masked Autoencoders (MAE)#Visual Pre-training #Foundation Models #Representation Learning #Web-Scale Data #Computer Vision

2025년 12월 17일

[논문리뷰] Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

논문은 복잡한 동적 장면의 기하학적 구조와 움직임을 비디오로부터 효율적으로 재구성하는 것을 목표로 합니다. 기존의 단편적이고 컴퓨팅 비용이 높은 3D 재구성 접근 방식의 한계를 극복하고, 단일의 통일된 모델로 깊이, 시공간 대응, 전체 카메라 파라미터 추론을 수행하는 4D 이해 프레임워크 를 제시하고자 합니다.

#Review #Dynamic Scene Reconstruction #4D Reconstruction #Point Tracking #Transformer Architecture #Feedforward Model #Query-based Inference #Computer Vision #Geometric Consistency

2025년 12월 9일

[논문리뷰] YOLO Meets Mixture-of-Experts: Adaptive Expert Routing for Robust Object Detection

본 연구는 객체 탐지 분야에서 YOLOv9-T 모델의 성능과 견고성을 향상시키기 위해 새로운 Mixture-of-Experts (MoE) 프레임워크를 제안합니다.

#Review #Object Detection #YOLOv9 #Mixture-of-Experts #Adaptive Routing #Deep Learning #Computer Vision #Feature Specialization

2025년 11월 30일

[논문리뷰] Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

본 논문은 기존의 단일(monolithic) VLM(Vision-Language Model)이 가진 정밀성, 결정론적 제어 및 복합적 시각 작업 처리 능력의 한계를 극복하고자 합니다.

#Review #Visual Agent #Multimodal Perception #Tool-Augmented LLM #Agentic AI #Visual Reasoning #Computer Vision #Structured Outputs #ReAct Framework

2025년 11월 18일

[논문리뷰] VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

기존 Feed-Forward 3D Gaussian Splatting (3DGS) 방식의 문제점인 픽셀 정렬(pixel alignment) 의존성, 뷰 편향된 밀도 분포, 그리고 정렬 오류를 해결하는 것을 목표로 합니다. 특히 입력 뷰 수에 대한 의존성과 저텍스처 또는 폐색 영역에서의 한계를 극복하고자 합니다.

#Review #3D Gaussian Splatting #Novel View Synthesis #Voxel-Aligned Prediction #Feed-Forward Reconstruction #Multi-View Consistency #Scene Representation #Computer Vision

2025년 9월 24일

[논문리뷰] WinT3R: Window-Based Streaming Reconstruction with Camera Token Pool

본 연구는 기존 온라인 3D 재구성 방법들이 겪는 재구성 품질과 실시간 성능 간의 절충 문제를 해결하고, 스트리밍 이미지로부터 정밀한 카메라 포즈와 고품질의 포인트 맵을 실시간으로 예측 하는 모델 WinT3R 를 제안하는 것을 목표로 합니다.

#Review #Online 3D Reconstruction #Camera Pose Estimation #Streaming Reconstruction #Sliding Window #Camera Token Pool #Real-time Performance #Computer Vision

2025년 9월 8일

[논문리뷰] Local Scale Equivariance with Latent Deep Equilibrium Canonicalizer

본 논문은 컴퓨터 비전에서 발생하는 객체의 지역적 스케일 변화 문제를 해결하고, 모델의 지역적 스케일 일관성(local scale consistency) 을 향상시키는 것을 목표로 합니다.

#Review #Scale Equivariance #Deep Equilibrium Models #Canonicalization #Computer Vision #Image Classification #Semantic Segmentation #Latent Representation #Monotone Scaling

2025년 8월 21일

[논문리뷰] RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation

본 논문은 기존의 Robust PCA (RPCA) 모델이 가진 높은 계산 비용, 수동 튜닝에 따른 일반화 능력 부족, 그리고 경직된 사전 지식으로 인한 한계를 극복하는 것을 목표로 합니다.

#Review #Robust PCA #Deep Unfolding #Sparse Segmentation #Interpretability #Image Decomposition #Computer Vision

2025년 8월 8일

[논문리뷰] MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

기존 VOS(Video Object Segmentation) 데이터셋들이 실제와 동떨어진 고립되고 눈에 띄는 객체에 치우쳐 있어 모델의 현실 적용성을 제한하는 문제를 해결하고자 합니다.

#Review #Video Object Segmentation #Dataset #Complex Scenes #Benchmark #Object Tracking #Computer Vision #Dataset Challenges

2025년 8월 8일

[논문리뷰] DiffusionLane: Diffusion Model for Lane Detection

기존 앵커 기반 차선 감지 방법론의 고질적인 일반화 능력 부족 과 과적합 문제 를 해결하기 위해, 차선 감지 태스크를 노이즈 제거 확산(denoising diffusion) 과정 으로 재정의하는 확산 모델 기반 프레임워크 를 제안하는 것을 목표로 합니다.

#Review #Lane Detection #Diffusion Model #Denoising Diffusion #Hybrid Decoding #Anchor-based #Domain Adaptation #Computer Vision #Generative Models

2025년 10월 28일

[논문리뷰] Universal Image Restoration Pre-training via Masked Degradation Classification

본 논문은 다양한 종류의 이미지 손상(degradation)을 복원하는 단일 모델(universal image restoration)의 성능을 향상시키기 위해, 기존 사전 훈련 방법론의 한계를 극복하고자 합니다.

#Review #Universal Image Restoration #Pre-training #Masked Image Modeling #Degradation Classification #Deep Learning #Computer Vision #Self-supervised Learning #Low-level Vision

2025년 10월 16일

[논문리뷰] Trace Anything: Representing Any Video in 4D via Trajectory Fields

본 논문은 비디오의 동적 장면을 모델링하고 이해하는 데 필수적인 효과적인 시공간 표현 문제를 해결하고자 합니다.

#Review #4D Video Representation #Trajectory Fields #Neural Networks #Spatio-temporal Modeling #3D Point Tracking #Motion Forecasting #Computer Vision #B-splines

2025년 10월 16일

[논문리뷰] What If : Understanding Motion Through Sparse Interactions

논문은 물리적 장면의 동역학을 이해하는 것을 목표로 하며, 특히 국부적인 상호작용('pokes')의 결과로 발생할 수 있는 잠재적인 변화의 다중 모드 분포 를 예측하고자 합니다.

#Review #Motion Understanding #Sparse Interactions #Multimodal Prediction #Flow Poke Transformer #Physical Scene Dynamics #Uncertainty Quantification #Generative Models #Computer Vision

2025년 10월 15일

[논문리뷰] SpaceVista: All-Scale Visual Spatial Reasoning from mm to km

본 논문은 기존 공간 추론 모델들이 실내 3D 스캔 및 수동 어노테이션에 의존하고 개별 장면에 과적합되는 한계를 극복하여, mm부터 km까지 아우르는 모든 스케일에서의 시각 공간 추론(All-Scale Visual Spatial Reasoning) 능력을 발전시키는 것을 목표로 합니다.

#Review #Spatial Reasoning #Multi-Scale Vision #MLLM #Dataset #Scale Experts #Reinforcement Learning #Computer Vision #Robotics

2025년 10월 13일