[논문리뷰] Task-Focused Memorization for Multimodal Agents본 논문은 멀티모달 에이전트가 방대한 스트리밍 데이터 속에서 '무엇을 메모리화할 것인가'를 스스로 판단해야 하는 문제를 해결하고자 한다.#Review#Multimodal Agents#Long-term Memory#Reinforcement Learning#Task-Focused Memorization#Direct Preference Optimization#Streaming VQA2026년 5월 31일댓글 수 로딩 중
[논문리뷰] MMSkills: Towards Multimodal Skills for General Visual Agents본 논문은 시각적 에이전트가 복잡한 환경에서 성공적인 결정을 내리기 위해 필요한 Multimodal Procedural Knowledge의 부재 문제를 해결하고자 합니다.#Review#Multimodal Agents#Procedural Knowledge#Visual Grounding#Branch Loading#GUI Agents#Skill Representation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] HippoCamp: Benchmarking Contextual Agents on Personal ComputersHippoCamp는 100명 이상의 실제 사용자 데이터를 기반으로 2,000개 이상의 이질적인 파일을 포함하는 3개의 대표적인 개인 컴퓨팅 환경을 구축하였습니다. 각 환경에는 Factual Retention 및 Profiling 태스크를 위한 581개의 QA 쌍이 존재하며, 이를 위해 46.1K개의 정교한 주석(Annotation)이 제공됩니다.#Review#Multimodal Agents#File-System#Contextual Benchmarking#Personalized Memory#Profiling#Factual Retention2026년 4월 1일댓글 수 로딩 중
[논문리뷰] XSkill: Continual Learning from Experience and Skills in Multimodal AgentsMultimodal 에이전트는 복잡한 시각적 추론 task와 다양한 툴을 처리할 수 있게 되었지만, 여전히 비효율적인 툴 사용과 open-ended 환경에서의 유연하지 않은 orchestration이라는 두 가지 근본적인 병목 현상에 직면해 있습니다.#Review#Multimodal Agents#Continual Learning#Experience Learning#Skill Learning#Tool Use#Knowledge Base#Visual Reasoning2026년 3월 12일댓글 수 로딩 중
[논문리뷰] Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document CollectionsMultimodal Agent는 복잡한 문서 기반 워크플로우를 자동화하는 유망한 방향을 제시하지만, 이러한 Agent가 진정한 Strategic Reasoning 을 보여주는지, 아니면 단지 Stochastic Trial-and-error Search 에 의존하는지에 대한 근본적인 의문이 존재했습니다.#Review#Multimodal Agents#Document QA#Agentic Reasoning#RAG#Benchmark#PDFs#Effort Calibration2026년 3월 12일댓글 수 로딩 중
[논문리뷰] AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios본 연구는 기존 멀티모달 벤치마크들이 단일 턴 시각 추론이나 특정 도구 사용 능력에 치우쳐 있어 현실성, 시각적 미묘함, 장기적인 도구 사용을 요구하는 실제 에이전트의 능력을 충분히 포착하지 못하는 문제를 해결하고자 합니다.#Review#Multimodal Agents#Visual Reasoning#Tool Use#Benchmark#Long-Horizon Tasks#Realistic Scenarios#Agentic Intelligence2026년 3월 5일댓글 수 로딩 중
[논문리뷰] DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories본 논문은 기존의 독립적인 이미지 검색 패러다임이 시각적 히스토리 내의 복잡한 문맥적 의존성을 간과하는 문제를 해결하는 것을 목표로 합니다. 이미지를 자율적인 탐색 작업으로 재구성하여, 모델이 원시 시각적 히스토리에서 다단계 추론을 통해 암묵적인 문맥 단서에 기반한 타겟을 찾아내는 새로운 에이전트 패러다임 을 제시합니다.#Review#Multimodal Agents#Image Retrieval#Context-Aware#Visual Histories#Benchmarking#Vision-Language Models#Agentic AI2026년 2월 16일댓글 수 로딩 중
[논문리뷰] RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System본 논문은 LLM 및 에이전트 시나리오에서 학습 신호를 증폭하고 전체 RL 시스템을 강화하기 위해 환경, 정책, 보상 모델을 닫힌 루프(closed-loop) 최적화 를 통해 동적으로 구축하는 RLAnything 프레임워크를 제안합니다.#Review#Reinforcement Learning#Large Language Models#Agentic AI#Reward Modeling#Environment Adaptation#Closed-loop Optimization#Multimodal Agents2026년 2월 2일댓글 수 로딩 중
[논문리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents본 논문은 시각적으로 풍부하고 다단계적인 인터랙티브 의사결정 태스크에서 Vision-Language Models (VLMs) 의 기능과 한계를 체계적으로 진단하고 개선하기 위한 연구를 목표로 합니다.#Review#Multimodal Agents#Vision-Language Models (VLMs)#Interactive AI#Reinforcement Learning Environments#Benchmark#Decision-Making#Diagnostic Tools#Supervised Fine-tuning2026년 1월 25일댓글 수 로딩 중
[논문리뷰] SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning본 논문은 기존 VLM 기반 에이전트의 텍스트 중심 추론 및 고립된 도구 호출 한계를 극복하고자 합니다.#Review#Multimodal Agents#Reinforcement Learning#Vision-Language Models#Tool Use#Agentic Reasoning#Image Search#HR-MMSearch#BN-GSPO2026년 1월 4일댓글 수 로딩 중
[논문리뷰] RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale본 연구는 도시 규모 3D 세계 생성에서 기존 방법론이 직면한 품질, 충실도 및 확장성 문제를 해결하는 것을 목표로 합니다.#Review#3D World Generation#City-Scale#Multimodal Agents#Reality Alignment#Urban Simulation#Foundation Models#Geospatial Data2025년 11월 26일댓글 수 로딩 중
[논문리뷰] ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use본 논문은 멀티모달 대규모 언어 모델(MLLM)이 동적 추론, 외부 지식 접근 및 다단계 연산이 필요한 복잡한 작업에서 겪는 한계, 특히 장기적인 VQA 작업 에서의 제한된 전역 계획 과 시각적 맥락 저하 문제를 해결하는 것을 목표로 합니다.#Review#Multimodal Agents#Tool-Augmented LLMs#Vision-Guided Reasoning#Long-Horizon Tasks#VQA#Global Planning#Context Preservation#Perceive Tool2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models논문은 기존 Vision-Language Models (VLMs)이 복잡한 시각적 추론 과정에서 시각적 정보에 대한 의존도가 빠르게 감소하여 '텍스트 환각' 및 '시각적 무시'를 겪는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Visual Reasoning#Reflection#Reinforcement Learning#Visual Attention#Slow Thinking#Multimodal Agents2025년 9월 16일댓글 수 로딩 중
[논문리뷰] Mobile-Agent-v3: Foundamental Agents for GUI Automation본 논문은 다양한 GUI 환경(데스크톱, 모바일)에서 인간의 지시에 따라 작업을 자동화하는 데 있어 기존 모델들의 한계(낮은 일반화 능력, 동적 환경 적응의 어려움)를 극복하고자 합니다.#Review#GUI Automation#Multimodal Agents#Foundational Models#Reinforcement Learning#Large Language Models#Cross-Platform#Self-Supervised Learning2025년 8월 22일댓글 수 로딩 중
[논문리뷰] OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents기존 GUI agent 벤치마크들이 Model Context Protocol (MCP)을 통한 도구 호출(tool invocation) 능력을 간과하여 GUI 상호작용만 평가하는 한계를 극복하고자 합니다.#Review#Multimodal Agents#Tool Invocation#Benchmark#Model Context Protocol (MCP)#GUI Automation#Computer-Use Agents#Evaluation Metrics2025년 10월 29일댓글 수 로딩 중