#Visual Attention

2개의 포스트

[논문리뷰] SCALE: Self-uncertainty Conditioned Adaptive Looking and Execution for Vision-Language-Action Models

Vision-Language-Action (VLA) 모델의 고정된 추론 파이프라인이 지각적 모호성이나 행동의 다중 양상과 같은 불확실한 상황에서 오류를 누적하는 문제를 해결하고자 합니다.

#Review #Vision-Language-Action Models #Self-Uncertainty Estimation #Adaptive Inference #Active Perception #Action Decoding #Visual Attention #Robotic Manipulation

2026년 2월 10일

[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models

논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.

#Review #Vision-Language Models #Visual Reasoning #Reflection #Reinforcement Learning #Visual Attention #Slow Thinking #Multimodal Agents

2025년 9월 16일