[논문리뷰] Watch, Remember, Reason: Human-View Video Understanding with MLLMs본 연구는 짧은 클립 위주의 비디오 이해에서 벗어나 분 단위 이상의 장기적이고 다중 모달이 얽힌 복잡한 비디오 환경으로 변화하는 트렌드를 다룹니다.#Review#Multimodal Large Language Models#Video Understanding#Temporal Grounding#Memory Modeling#Long-video Reasoning#Efficient Perception2026년 6월 7일댓글 수 로딩 중