#Two-stage Training

3개의 포스트

[논문리뷰] HDINO: A Concise and Efficient Open-Vocabulary Detector

논문은 기존 개방형 단어 객체 탐지(OVD) 모델들이 수동으로 큐레이션된 학습 데이터셋 과 자원 집약적인 교차 모달 특징 추출 에 과도하게 의존하는 문제를 해결하고자 합니다. 이러한 의존성을 제거하여 간결하면서도 효율적인 개방형 단어 객체 탐지기 를 개발하는 것을 목표로 합니다.

#Review #Open-Vocabulary Object Detection #Transformer #DINO #CLIP #Semantic Alignment #Hard Example Mining #Feature Fusion #Two-stage Training

2026년 3월 4일

[논문리뷰] GeoPQA: Bridging the Visual Perception Gap in MLLMs for Geometric Reasoning

본 논문은 멀티모달 대규모 언어 모델(MLLM)이 기하학적 추론과 같은 시각 집중 태스크에서 자주 발생하는 환각 현상 과 부정확한 추론 문제를 해결하고자 합니다. 이러한 문제의 근본 원인인 MLLM의 시각적 인지 병목 현상 을 정량화하고, 이를 극복하여 추론 훈련의 효과를 극대화하는 것을 목표로 합니다.

#Review #Multimodal Large Language Models (MLLMs)#Geometric Reasoning #Visual Perception #Reinforcement Learning (RL)#Two-stage Training #GeoPQA Benchmark #Perceptual Bottleneck

2025년 9월 23일

[논문리뷰] VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

본 논문은 기존 VLM(Vision-Language Models)이 고수준 장면 이해에는 뛰어나지만, 정밀한 공간적 지역화가 필요한 미세 조정 지각(fine-grained perception) 작업에서 부족한 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Object Grounding #Fine-grained Perception #Hybrid Region Encoder #Plug-and-play #Two-stage Training #Visual Reasoning

2025년 10월 2일