#Multimodal Agent

12개의 포스트

[논문리뷰] Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Kevin Qinghong Lin이 arXiv에 게시한 'Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories' 논문에 대한 자세한 리뷰입니다.

#Review #Data Journalism #Multimodal Agent #Verifiable Storytelling #Automated Analysis #Data Visualization

2026년 6월 9일

[논문리뷰] Agent Skills Should Go Beyond Text: The Case for Visual Skills

본 논문은 현재 에이전트 스킬 학습 패러다임이 텍스트 중심적(text-only)으로 구성되어 있어 시각적 과업 수행 시 발생하는 '텍스트 병목 현상(Textual Bottleneck)'을 해결하고자 합니다 .

#Review #Multimodal Agent #Visual Skill #Spatial Prior #GUI Grounding #Task Decomposition #Skill Reusability #Textual Degradation

2026년 6월 1일

[논문리뷰] WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

본 논문은 기존 memory 벤치마크가 정적인 대화 데이터에 편향되어 있고, memory를 단일 성공 지표로만 평가하여 실패 원인 파악이 어렵다는 문제를 해결하기 위해 WorldMemArena를 제안한다.

#Review #Multimodal Agent #Memory Benchmark #Action-World Interaction #Lifecycle Evaluation #Long-horizon #Lifelong Evolution #Agentic Execution

2026년 5월 28일

[논문리뷰] PhoneWorld: Scaling Phone-Use Agent Environments

본 논문은 모바일 에이전트 연구의 병목 현상인 '재현 가능하고 제어 가능한 환경의 부족' 문제를 해결하고자 한다. 기존 벤치마크들은 이미 구축된 환경에서의 평가에만 집중하고 있으며, 새로운 환경을 확장성 있게 구축할 방법은 제시하지 못하고 있다.

#Review #Phone-Use Agent #Environment Synthesis #GUI Trajectories #Autonomous App Construction #Scaling #Multimodal Agent

2026년 5월 28일

[논문리뷰] Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

본 논문은 현대 LLM 에이전트가 특정 도메인에 강점을 가진 다양한 전문가 모델과 모듈식 스킬을 효과적으로 활용하지 못하는 Coordination Bottleneck 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Multimodal Agent #Orchestration #Skill Library #Expert Models #Hierarchical Registry

2026년 5월 21일

[논문리뷰] GenEvolve: Self-Evolving Image Generation Agents via Tool-Orchestrated Visual Experience Distillation

본 논문은 오픈 엔드 이미지 생성이 단순한 텍스트 프롬프트 기반의 task를 넘어, 모델의 내부 지식과 외부 리소스를 효과적으로 결합해야 하는 복잡한 에이전트 과정임을 강조합니다.

#Review #Image Generation #Agentic Workflow #Self-Evolving #Visual Experience Distillation #Tool-Orchestrated #On-Policy Distillation #Multimodal Agent

2026년 5월 21일

[논문리뷰] PresentAgent-2: Towards Generalist Multimodal Presentation Agents

본 논문은 기존의 문서 기반 프레젠테이션 자동화 도구가 가지는 제약을 극복하고, 사용자의 오픈 엔드 쿼리로부터 직접적인 프레젠테이션 영상을 생성하는 시스템을 목표로 한다.

#Review #Multimodal Agent #Presentation Generation #Deep Research #Interactive Delivery #Dynamic Media #Benchmark

2026년 5월 13일

[논문리뷰] InterLV-Search: Benchmarking Interleaved Multimodal Agentic Search

본 논문은 기존의 멀티모달 에이전트 벤치마크들이 시각적 증거를 단순히 답변의 최종 종착지(Endpoint)로만 취급하여, 실제 정보 탐색 과정에서 시각적 정보가 검색 경로를 제어하는 역할을 간과한다는 문제를 지적합니다.

#Review #Multimodal Agent #Interleaved Search #Visual Evidence #Agentic Search Benchmark #Multimodal Reasoning #Open-web Search

2026년 5월 10일

[논문리뷰] Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

기존의 Text-to-Image(T2I) 모델들은 고품질 이미지 생성 능력은 탁월하지만, 학습 데이터에 포함되지 않은 long-tail 개념이나 특정 인물, 문화적 상징 등 외부 세계 지식이 요구되는 상황에서 identity drift나 환각(hallucination) 문제를 겪습니다.

#Review #Multimodal Agent #World-Grounded Image Synthesis #FactIP #Agentic Pipeline #Unified Multimodal Model #Evidence-Grounded Recaptioning

2026년 3월 31일

[논문리뷰] MuSEAgent: A Multimodal Reasoning Agent with Stateful Experiences

기존의 multimodal agent는 전체 interaction history를 기억하거나 trajectory 단위로 과거 경험을 검색하는 방식을 주로 사용해왔습니다.

#Review #Multimodal Agent #Stateful Experience #Hindsight Reasoning #Compositional State Representation #Deep-and-Wide Search #Visual Reasoning

2026년 3월 30일

[논문리뷰] Gen-Searcher: Reinforcing Agentic Search for Image Generation

최신 텍스트-이미지 생성 모델들은 놀라운 시각적 품질을 보여주지만, 학습 과정에서 습득한 고정된 지식에 의존한다는 근본적인 한계를 지닙니다. 특히 실시간 정보가 필요하거나 지식 집약적인 프롬프트가 주어질 경우, 모델은 올바른 시각적 참조 없이 이미지를 생성하여 factual error나 시각적 왜곡을 초래합니다.

#Review #Agentic AI #Image Generation #Multi-hop Search #Reinforcement Learning #Grounded Generation #Multimodal Agent

2026년 3월 30일

[논문리뷰] Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory

본 논문은 실시간 멀티모달 입력(시각, 청각)을 지속적으로 처리하여 장기 기억을 구축하고 업데이트하며, 이를 기반으로 추론하여 복잡한 지시를 완료할 수 있는 멀티모달 에이전트 프레임워크 M3-Agent 를 제안합니다. 기존 모델의 한계인 무한한 정보 처리 및 일관된 세계 지식 구축 문제를 해결하고자 합니다.

#Review #Multimodal Agent #Long-Term Memory #Episodic Memory #Semantic Memory #Reinforcement Learning #Video Question Answering #Entity-Centric Memory

2025년 8월 14일