#UI Automation

5개의 포스트

[논문리뷰] LUMOS: A Semantic Operating-System Layer for Accessibility-Grounded AI Agents

본 논문은 기존 운영체제가 인간 사용자에게 최적화되어 있어 AI 에이전트의 효율적인 제어를 방해한다는 문제점을 해결하고자 합니다.

#Review #AI Agents #Operating Systems #Accessibility #Semantic Blueprint #UI Automation #Computer Use #LLM

2026년 6월 30일

[논문리뷰] POINTS-GUI-G: GUI-Grounding Journey

본 논문은 최소한의 GUI grounding 능력을 가진 POINTS-1.5 와 같은 기반 모델에서 출발하여, GUI grounding을 위한 완전한 기술 파이프라인을 구축하고 자동화하는 것을 목표로 합니다.

#Review #GUI Grounding #Vision-Language Models (VLMs)#Reinforcement Learning (RL)#Data Engineering #UI Automation #Perception-intensive AI

2026년 2월 8일

[논문리뷰] Mind the Third Eye! Benchmarking Privacy Awareness in MLLM-powered Smartphone Agents

본 논문은 MLLM 기반 스마트폰 에이전트 의 개인정보 보호 인식(Privacy Awareness) 능력을 체계적으로 평가하기 위한 최초의 대규모 벤치마크를 구축하고, 에이전트들이 민감한 사용자 정보에 접근할 때 적절한 개인정보 보호 조치를 취하는지 검증하는 것을 목표로 합니다.

#Review #Multimodal LLMs (MLLMs)#Smartphone Agents #Privacy Awareness #Benchmarking #Sensitive Data Detection #Risk Assessment #UI Automation

2025년 8월 28일

[논문리뷰] LaTCoder: Converting Webpage Design to Code with Layout-as-Thought

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 웹페이지 디자인을 코드로 변환하는 과정에서 레이아웃을 정확하게 유지하지 못하는 문제 를 해결하고자 합니다. 특히 복잡한 레이아웃을 가진 실제 웹페이지 디자인의 경우 MLLM의 한계로 인해 레이아웃 정보가 손실되는 문제를 개선하는 것이 주된 목표입니다.

#Review #Design-to-Code #Webpage Generation #Multimodal Large Language Models (MLLMs)#Layout Preservation #Chain-of-Thought (CoT)#UI Automation #Code Generation

2025년 8월 7일

[논문리뷰] Improving GUI Grounding with Explicit Position-to-Coordinate Mapping

본 논문은 기존 VLM(Vision-Language Model)의 GUI Grounding(자연어 지시를 픽셀 좌표에 매핑) 한계를 해결하는 것을 목표로 합니다. 특히, 모델이 학습 시 보지 못한 고해상도 디스플레이에 추론할 때 발생하는 불안정한 좌표 예측과 해상도 일반화 문제를 개선하고자 합니다.

#Review #GUI Grounding #Vision-Language Models #Positional Embedding #UI Automation #Coordinate Prediction #Resolution Generalization #Transformer Architecture

2025년 10월 6일