[논문리뷰] PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation AgentsHongsheng Li이 arXiv에 게시한 'PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents' 논문에 대한 자세한 리뷰입니다.#Review#Proactive Agents#GUI Automation#Intent Recommendation#Multimodal LLMs#Benchmark#Memory-aware Framework#Human-Computer Interaction2026년 3월 9일댓글 수 로딩 중
[논문리뷰] Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera ControlShengqu Cai이 arXiv에 게시한 'Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control' 논문에 대한 자세한 리뷰입니다.#Review#Video Generation#Extended Reality (XR)#Diffusion Models#Human-Computer Interaction#Hand Pose Estimation#Camera Control#World Simulation#Interactive AI2026년 2월 22일댓글 수 로딩 중
[논문리뷰] Continual GUI AgentsarXiv에 게시된 'Continual GUI Agents' 논문에 대한 자세한 리뷰입니다.#Review#Continual Learning#GUI Agents#Reinforcement Learning#Grounding#Domain Adaptation#Resolution Adaptation#Reward Shaping#Human-Computer Interaction2026년 2월 1일댓글 수 로딩 중
[논문리뷰] FocusUI: Efficient UI Grounding via Position-Preserving Visual Token SelectionarXiv에 게시된 'FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection' 논문에 대한 자세한 리뷰입니다.#Review#UI Grounding#Visual Token Reduction#Position-Preserving#Vision-Language Models (VLMs)#Saliency Scoring#Computational Efficiency#Human-Computer Interaction2026년 1월 14일댓글 수 로딩 중
[논문리뷰] ShowUI-π: Flow-based Generative Models as GUI Dexterous HandsarXiv에 게시된 'ShowUI-π: Flow-based Generative Models as GUI Dexterous Hands' 논문에 대한 자세한 리뷰입니다.#Review#GUI Automation#Flow-based Generative Models#Continuous Control#Vision-Language Models#Human-Computer Interaction#ScreenDrag Benchmark#Dexterous Manipulation2026년 1월 13일댓글 수 로딩 중
[논문리뷰] DreamOmni3: Scribble-based Editing and GenerationarXiv에 게시된 'DreamOmni3: Scribble-based Editing and Generation' 논문에 대한 자세한 리뷰입니다.#Review#Image Editing#Image Generation#Scribble-based Control#Multimodal AI#Diffusion Models#Data Synthesis#Human-Computer Interaction#Instruction-based Editing2025년 12월 30일댓글 수 로딩 중
[논문리뷰] Step-GUI Technical ReportarXiv에 게시된 'Step-GUI Technical Report' 논문에 대한 자세한 리뷰입니다.#Review#GUI Automation#Self-Evolving Pipeline#Reinforcement Learning#Multimodal LLMs#Privacy-Preserving AI#Human-Computer Interaction#Model Context Protocol#Benchmarking2025년 12월 17일댓글 수 로딩 중
[논문리뷰] StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming VideosarXiv에 게시된 'StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos' 논문에 대한 자세한 리뷰입니다.#Review#Streaming Video Understanding#Gaze-Guided AI#Temporal Reasoning#Proactive AI#MLLMs#Eye Tracking#Benchmark#Human-Computer Interaction2025년 12월 1일댓글 수 로딩 중
[논문리뷰] Computer-Use Agents as Judges for Generative User InterfacearXiv에 게시된 'Computer-Use Agents as Judges for Generative User Interface' 논문에 대한 자세한 리뷰입니다.#Review#Computer-Use Agents#Generative UI#AI-assisted Design#Human-Computer Interaction#LLM#AUI-Gym#Feedback Loop#Agent-centric Design2025년 11월 24일댓글 수 로딩 중
[논문리뷰] Aligning Generative Music AI with Human Preferences: Methods and ChallengesAbhinaba Roy이 arXiv에 게시한 'Aligning Generative Music AI with Human Preferences: Methods and Challenges' 논문에 대한 자세한 리뷰입니다.#Review#Generative Music AI#Preference Alignment#Reinforcement Learning from Human Feedback (RLHF)#Direct Preference Optimization (DPO)#Inference-Time Optimization#Music Generation#Human-Computer Interaction2025년 11월 19일댓글 수 로딩 중
[논문리뷰] Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web GamesJustin Cui이 arXiv에 게시한 'Can Agent Conquer Web? Exploring the Frontiers of ChatGPT Atlas Agent in Web Games' 논문에 대한 자세한 리뷰입니다.#Review#Web Agent#Large Language Models#Multimodal AI#Browser Automation#Game AI#ChatGPT Atlas#Performance Evaluation#Human-Computer Interaction2025년 10월 31일댓글 수 로딩 중
[논문리뷰] Paper2Web: Let's Make Your Paper Alive!Yao Wan이 arXiv에 게시한 'Paper2Web: Let's Make Your Paper Alive!' 논문에 대한 자세한 리뷰입니다.#Review#Academic Webpage Generation#Multi-Agent Systems#Large Language Models#Model Context Protocol#Interactive Content#Multimedia Dissemination#Evaluation Benchmark#Human-Computer Interaction2025년 10월 20일댓글 수 로딩 중
[논문리뷰] PersonaX: Multimodal Datasets with LLM-Inferred Behavior TraitsZhenhao Chen이 arXiv에 게시한 'PersonaX: Multimodal Datasets with LLM-Inferred Behavior Traits' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Dataset#LLM Inference#Behavioral Traits#Causal Representation Learning#Big Five#Multimodal AI#Causal Discovery#Human-Computer Interaction2025년 9월 16일댓글 수 로딩 중
[논문리뷰] 'Does the cafe entrance look accessible? Where is the door?' Towards Geospatial AI Agents for Visual InquiriesXia Su이 arXiv에 게시한 'Does the cafe entrance look accessible? Where is the door? Towards Geospatial AI Agents for Visual Inquiries' 논문에 대한 자세한 리뷰입니다.#Review#Geospatial AI#Multimodal AI Agents#Visual Question Answering#Accessibility#Street View Imagery#Spatial Reasoning#Human-Computer Interaction2025년 8월 22일댓글 수 로딩 중
[논문리뷰] InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy OptimizationPengxiang Li이 arXiv에 게시한 'InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization' 논문에 대한 자세한 리뷰입니다.#Review#GUI Grounding#MLLMs#Reinforcement Learning#Policy Optimization#Exploration Strategy#Semantic Alignment#Adaptive Exploration Reward#Human-Computer Interaction2025년 8월 11일댓글 수 로딩 중
[논문리뷰] Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D GenerationHao Huang이 arXiv에 게시한 'Sel3DCraft: Interactive Visual Prompts for User-Friendly Text-to-3D Generation' 논문에 대한 자세한 리뷰입니다.#Review#Text-to-3D Generation#Prompt Engineering#Visual Analytics#Human-Computer Interaction#Multi-modal Large Language Models#3D Model Evaluation2025년 8월 7일댓글 수 로딩 중
[논문리뷰] C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex ConversationsYiwen Guo이 arXiv에 게시한 'C3: A Bilingual Benchmark for Spoken Dialogue Models Exploring Challenges in Complex Conversations' 논문에 대한 자세한 리뷰입니다.#Review#Spoken Dialogue Models#Bilingual Benchmark#Complex Conversations#Ambiguity Resolution#Context Understanding#LLM Evaluation#Human-Computer Interaction2025년 8월 2일댓글 수 로딩 중