[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.#Review#Vision-Language Models#Latent Memory#Cognitive Memory#Visual Grounding#Short-term Memory#Long-term Memory#Reinforcement Learning2025년 11월 23일댓글 수 로딩 중