[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.#Review#Multimodal QA#Latent Memory#Resource-Constrained#Token Efficiency#Evidence Retrieval#Visual Language Model2026년 6월 9일댓글 수 로딩 중