#Resource-Constrained

1개의 포스트

[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.

#Review #Multimodal QA #Latent Memory #Resource-Constrained #Token Efficiency #Evidence Retrieval #Visual Language Model

2026년 6월 9일