[논문리뷰] π-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows본 논문은 Personal Assistant Agent가 장기적인 프로젝트나 업무 환경에서 능동적으로 의도(Hidden Intents)를 파악하고 대응하지 못하는 한계를 해결하고자 한다.#Review#Proactive Personal Assistant Agents#Long-Horizon Workflows#Hidden Intents#Benchmark#Task Completion#Agentic Workflow2026년 5월 21일댓글 수 로딩 중
[논문리뷰] Rethinking Video Generation Model for the Embodied World본 연구는 로봇 상호작용을 정확하게 반영하는 고품질 비디오 생성의 어려움을 해결하고, 표준화된 벤치마크 부족으로 인한 공정한 비교 및 발전의 한계를 극복하는 것을 목표로 합니다. 궁극적으로 로봇 학습 및 행동 예측을 위한 비디오 생성 모델의 실제 적용 가능성을 높이고, 신체화된 AI의 발전을 가속화하고자 합니다.#Review#Video Generation#Embodied AI#Robotics Benchmark#RBench#Robotics Dataset#RoVid-X#Physical Plausibility#Task Completion2026년 1월 21일댓글 수 로딩 중
[논문리뷰] ScaleCUA: Scaling Open-Source Computer Use Agents with Cross-Platform Data컴퓨터 사용 에이전트(CUA) 개발은 광범위한 도메인 지식과 방대한 운영 궤적 데이터를 요구하지만, 이러한 데이터의 희소성과 기존 VLM의 제한된 전이 가능성으로 인해 진척이 더뎠습니다.#Review#Computer Use Agents#Vision-Language Models#Cross-Platform Data#GUI Automation#Data Scaling#Open-Source#Task Completion#GUI Grounding2025년 9월 19일댓글 수 로딩 중