[논문리뷰] Ego2Web: A Web Agent Benchmark Grounded in Egocentric VideosMultimodal AI agents는 online web execution을 포함하는 복잡한 real-world workflow를 점차 자동화하고 있습니다.#Review#Multimodal AI Agents#Web-agent Benchmark#Egocentric Video#Visual Grounding#Online Evaluation#LLM-as-a-Judge#Perception-Action Alignment2026년 3월 24일댓글 수 로딩 중
[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual Inquiries본 논문은 기존 지도 시스템이 구조화된 GIS 데이터에 의존하여 시각적-공간적 질의(예: '카페 입구가 접근 가능한가요?', '문은 어디에 있고 어떻게 생겼나요?')에 답변하는 데 한계가 있음을 지적합니다.#Review#Geospatial AI#Multimodal AI Agents#Visual Question Answering#Accessibility#Street View Imagery#Spatial Reasoning#Human-Computer Interaction2025년 8월 22일댓글 수 로딩 중