[논문리뷰] OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video UnderstandingJian Liu이 arXiv에 게시한 'OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding' 논문에 대한 자세한 리뷰입니다.#Review#Omnimodal Understanding#Audio-Guided Perception#Active Learning Agents#Cross-Modal Alignment#Tool-Use#Video Understanding#Multimodal LLMs2025년 12월 29일댓글 수 로딩 중
[논문리뷰] UniVA: Universal Video Agent towards Open-Source Next-Generation Video GeneralistarXiv에 게시된 'UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist' 논문에 대한 자세한 리뷰입니다.#Review#Video Agents#Multi-modal AI#Plan-Act Architecture#Tool-Use#Long-horizon Reasoning#Open-source#Video Generation#Video Understanding2025년 11월 13일댓글 수 로딩 중
[논문리뷰] SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective AgentSiyuan Huang이 arXiv에 게시한 'SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent' 논문에 대한 자세한 리뷰입니다.#Review#3D Scene Synthesis#Agentic Framework#LLMs#Self-Reflection#Tool-Use#Physical Plausibility#Iterative Refinement#Embodied AI2025년 9월 26일댓글 수 로딩 중