[논문리뷰] CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use AgentsKaixin Li이 arXiv에 게시한 'CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Use Agents#Video Demonstrations#Human Annotation#Desktop Applications#Visual Grounding#Action Prediction#Multi-layered Reasoning#Foundation Action Models2026년 3월 25일댓글 수 로딩 중
[논문리뷰] VideoVLA: Video Generators Can Be Generalizable Robot ManipulatorsYaobo Liang이 arXiv에 게시한 'VideoVLA: Video Generators Can Be Generalizable Robot Manipulators' 논문에 대한 자세한 리뷰입니다.#Review#Robot Manipulation#Video Generation Models#Vision-Language-Action (VLA)#Diffusion Transformer#Generalization#Action Prediction#Visual Imagination2025년 12월 8일댓글 수 로딩 중
[논문리뷰] GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using AgentsarXiv에 게시된 'GUI-360: A Comprehensive Dataset and Benchmark for Computer-Using Agents' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Using Agents#GUI Grounding#Screen Parsing#Action Prediction#Desktop Automation#Dataset#Benchmark#Multimodal Learning#LLM-augmented Data2025년 11월 9일댓글 수 로딩 중
[논문리뷰] Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion ProcessarXiv에 게시된 'Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process' 논문에 대한 자세한 리뷰입니다.#Review#Vision-Language-Action (VLA)#Diffusion Models#Discrete Denoising#Multimodal Learning#Robotics#Embodied AI#Joint Generation#Action Prediction2025년 11월 9일댓글 수 로딩 중