[논문리뷰] One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA멀티모달 질의응답 시스템은 고해상도 시각적 입력과 긴 컨텍스트 처리에 따른 과도한 컴퓨팅 리소스 소모로 인해 실시간 서비스 구현에 한계를 겪고 있습니다. 기존의 Visual Language Models (VLM)은 멀티모달 입력을 처리할 때 너무 많은 토큰을 생성하여 Latency와 Throughput 저하를 유발합니다.#Review#Multimodal QA#Latent Memory#Resource-Constrained#Token Efficiency#Evidence Retrieval#Visual Language Model2026년 6월 9일댓글 수 로딩 중
[논문리뷰] Joint Agent Memory and Exploration Learning via Novelty Signals본 논문은 LLM 기반 에이전트가 개방형 환경에서 효율적인 탐색을 수행하지 못하는 문제를 해결하고자 합니다. 기존 에이전트는 환경과의 상호작용 기록이 길어짐에 따라 전체 기록을 유지하는 데 발생하는 막대한 계산 비용과 메모리 저장 공간 문제에 직면해 있습니다.#Review#Agent Memory#Exploration#Novelty Signals#GUI Agents#Latency#Token Efficiency#Latent Memory2026년 6월 1일댓글 수 로딩 중
[논문리뷰] VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models본 논문은 Vision-Language Models(VLMs)의 '시각 처리 병목 현상'을 해결하여, 긴 생성 과정에서 시각적 증거에 대한 접지력 상실 및 맥락화된 시각 경험 부족 문제를 극복하고, 정밀한 지각, 다단계 추론, 장기 생성 시퀀스 전반에 걸친 시각적 충실도를 향상시키는 것을 목표로 합니다.#Review#Vision-Language Models#Latent Memory#Cognitive Memory#Visual Grounding#Short-term Memory#Long-term Memory#Reinforcement Learning2025년 11월 23일댓글 수 로딩 중