[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.#Review#Multimodal Agent#Long-Term Memory#Episodic Memory#Semantic Memory#Reinforcement Learning#Video Question Answering#Entity-Centric Memory2025년 8월 14일댓글 수 로딩 중