[논문리뷰] CutVerse: A Compositional GUI Agents Benchmark for Media Post-Production Editing기존의 GUI 에이전트는 웹 탐색이나 단순 OS 작업에서는 상당한 진전을 보였으나, 정교한 미디어 후반 작업과 같은 전문적인 창의적 워크플로우에 대한 대응 능력은 거의 검증되지 않았습니다.#Review#GUI Agents#Media Post-Production#Benchmark#Multimodal#Long-Horizon#Grounding#Vibe Cutting2026년 5월 20일댓글 수 로딩 중
[논문리뷰] Continual GUI Agents본 연구는 GUI(Graphical User Interface) 에이전트가 새로운 도메인이나 해상도 변화와 같은 동적인 디지털 환경(데이터 분포의 변화)에서 성능 저하 없이 지속적으로 학습(continual learning) 할 수 있도록 하는 새로운 태스크인 Continual GUI Agents 를 정의합니다.#Review#Continual Learning#GUI Agents#Reinforcement Learning#Grounding#Domain Adaptation#Resolution Adaptation#Reward Shaping#Human-Computer Interaction2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Molmo2: Open Weights and Data for Vision-Language Models with Video Understanding and Grounding현재 가장 강력한 비디오-언어 모델(VLM)들이 대부분 독점적이거나, 독점 모델의 데이터를 증류하여 생성되거나, 훈련 데이터 및 방법론을 공개하지 않는 문제를 해결하고자 합니다.#Review#Vision-Language Models#Video Understanding#Grounding#Open Weights#Open Data#Multimodal AI#Object Tracking#Dense Captioning2026년 1월 15일댓글 수 로딩 중
[논문리뷰] Asking like Socrates: Socrates helps VLMs understand remote sensing images기존 Vision-Language Model (VLM) 들이 원격 감지(RS) 이미지 분석에서 겪는 '가짜 추론(pseudo reasoning)' 문제를 해결하고자 합니다.#Review#Remote Sensing#Vision-Language Models#Iterative Reasoning#Evidence-Seeking#Socratic Method#Reinforcement Learning#Multi-Agent System#VQA#Grounding2025년 12월 1일댓글 수 로딩 중
[논문리뷰] UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding본 논문은 기존 GUI 에이전트 훈련 및 추론 방식의 세 가지 한계점인 추론 설계 딜레마(P1) , 비효율적인 보상(P2) , 그리고 고해상도 디스플레이에서의 시각적 노이즈(P3) 를 해결하고자 합니다.#Review#GUI Agents#Reinforcement Learning#Grounding#MLLMs#Reward Function#Resampling#Visual Noise Reduction2025년 8월 11일댓글 수 로딩 중