[논문리뷰] Perceptual Flow Network for Visually Grounded Reasoning

2026년 5월 4일수정: 2026년 5월 4일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Yangfu Li, Yuning Gong, Hongjian Zhan, Teng Li, Yuanhuiyi Lyu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Perceptual Flow: LLM의 시각적 사고 과정을 구조화한 latent trajectory로, Planning State와 Perceptual States의 체인으로 구성됩니다.
Visually Grounded Reasoning (VGR): 모델이 최종 출력을 생성할 때 연관된 시각적 증거(RoI)를 명확하게 참조하도록 하여 모델의 신뢰성을 확보하는 추론 방식입니다.
Vicinal Geometric Shaping: 기존의 경직된 expert alignment 대신, expert prior의 ε-vicinity 내에서만 정렬을 강제하여 모델의 충분한 탐색을 보장하는 기법입니다.
Sub-Trajectory Balance (SubTB): Hierarchical variational objective의 일종으로, 전체 trajectory뿐만 아니라 부분 trajectory 단위의 밀도 높은 학습 신호를 제공합니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존 LVLM이 표준 MLE 학습 과정에서 시각적 궤적을 제어하지 못해 발생하는 언어 편향과 환각(Hallucination) 문제를 해결하고자 합니다. 기존 연구들은 GroundingDINO와 같은 시각 전문가(Visual Experts)의 기하학적 사전 지식(Geometric Priors)을 강제 정렬하여 이 문제를 완화하려 시도했습니다. 그러나 연구진은 이러한 expert prior가 시각적 정밀도에 치중되어 있어 실제 추론에 필요한 유연한 맥락 파악을 저해하는 'Tunnel Vision' 효과를 유발한다는 점을 발견했습니다 [Figure 1]. 따라서 시각적 신뢰성을 유지하면서도 추론 효율성을 극대화할 수 있는 새로운 접근 방식이 필요합니다.

Figure 1: 기하학적 정밀도와 추론 성능의 관계

Figure 1 — 기하학적 정밀도와 추론 성능의 관계

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 PFlowNet(Perceptual Flow Network)을 제안하여 perception과 reasoning을 분리하고 자가 조건부(Self-conditioned) 생성 프로세스를 확립합니다 [Figure 3]. PFlowNet은 Perceptual Flow를 통해 구조화된 잠재 궤적을 정의하며, Variational Reinforcement Fine-tuning(vRFT)을 도입하여 다차원 보상 함수와 vicinal geometric shaping을 통합합니다. 이 방식은 모델이 expert prior에 강제로 정렬되지 않고도 더 유연하고 효과적인 시각적 증거를 찾도록 유도합니다 [Figure 2]. 주요 실험 결과, PFlowNet은 Qwen3-VL-8B 기반 모델 대비 V* Bench에서 90.6%, MME-RealWorld-lite에서 67.0%의 성능을 기록하며 새로운 SOTA를 달성했습니다 [Table 2]. 특히 TreeBench와 MME-RealWorld-lite에서 각각 10.4%, 18.4%의 성능 향상을 보이며 시각적 추론 작업에서의 강력한 우위를 입증했습니다.

Figure 2: VGR 최적화 접근 방식 비교

Figure 2 — VGR 최적화 접근 방식 비교

Figure 3: PFlowNet의 전체 아키텍처

Figure 3 — PFlowNet의 전체 아키텍처

4. Conclusion & Impact (결론 및 시사점)

본 논문은 LVLM의 시각적 추론 과정에서 기하학적 고정 관념을 탈피하는 PFlowNet을 통해 고성능의 Grounded Reasoning 프레임워크를 제시하였습니다. 이 연구는 단순한 정렬 기반의 학습을 넘어, variational objective를 통한 더 높은 수준의 확률적 추론 모델링이 모델의 성능과 신뢰성을 어떻게 향상시킬 수 있는지 이론적·실증적으로 규명했습니다. 이는 향후 고해상도 시각 작업과 복잡한 GUI 탐색 등 고도의 시각적 신뢰성이 요구되는 다양한 산업 분야에 큰 시사점을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models
현재글 : [논문리뷰] Perceptual Flow Network for Visually Grounded Reasoning
다음글 [논문리뷰] Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs