[논문리뷰] Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language본 논문은 실무 환경에서 널리 사용되는 agentic workflow의 구축이 현재 전적으로 수동적인 엔지니어링에 의존하고 있어, 자동화 및 확장성에 한계가 있다는 문제를 해결하고자 한다.#Review#Agentic Workflow#Benchmark#Large Language Models#Visual Programming#Executable Workflow#Task Automation2026년 4월 21일댓글 수 로딩 중
[논문리뷰] MemGUI-Bench: Benchmarking Memory of Mobile GUI Agents in Dynamic Environments본 논문은 기존 모바일 GUI 에이전트 벤치마크가 메모리 능력을 체계적으로 평가하지 못하고 메모리 관련 태스크 비중이 5.2-11.8%에 불과 하며 교차 세션 학습 평가가 부재하다는 문제를 제기합니다.#Review#Mobile GUI Agents#Memory Benchmarking#Short-Term Memory#Long-Term Memory#LLM-as-Judge#Dynamic Environments#Evaluation Metrics#Task Automation2026년 2월 8일댓글 수 로딩 중
[논문리뷰] Memp: Exploring Agent Procedural Memory논문은 대규모 언어 모델(LLM) 기반 에이전트가 겪는 취약한 절차적 메모리 문제를 해결하고, 에이전트에게 학습 가능하고 업데이트 가능한 평생 절차적 메모리 를 부여하는 것을 목표로 합니다. 이를 통해 에이전트의 성공률을 높이고 유사 작업에 대한 실행 효율성 을 개선하고자 합니다.#Review#Procedural Memory#LLM Agents#Memory Management#Task Automation#Lifelong Learning#Experience Replay#Agent Learning2025년 8월 11일댓글 수 로딩 중