[논문리뷰] Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents본 논문은 최신 GUI 에이전트가 뛰어난 성능을 보임에도 불구하고, 실행 과정에서 발생하는 Policy-Induced Errors를 인지하고 복구하는 능력이 부족하여 실제 배포에 한계가 있다는 문제를 해결하고자 합니다.#Review#GUI Agent#Robustness#Trajectory Synthesis#Policy-Induced Errors#Error Recovery#VLM2026년 5월 31일댓글 수 로딩 중
[논문리뷰] SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents본 논문은 LLM 에이전트가 복잡한 과학적 워크플로우에서 도메인 특화 도구를 사용하여 다단계 추론을 수행하는 능력을 평가하고 향상시키는 것을 목표로 합니다. 기존 벤치마크들이 정적 질의응답에 치중하여 에이전트의 대화형 도구 사용 능력을 제대로 반영하지 못하는 한계를 해결하고자 합니다.#Review#LLM Agents#Tool-use#Scientific Reasoning#Benchmarking#Interactive Environment#Data Synthesis#Error Recovery#Multi-step Tasks2026년 2월 15일댓글 수 로딩 중
[논문리뷰] Robust Tool Use via Fission-GRPO: Learning to Recover from Execution Errors본 논문은 대규모 언어 모델(LLMs), 특히 소형 LLMs가 다중 턴 도구 실행에서 발생하는 실행 오류로부터 취약하고, 오류 발생 시 반복적인 무효 호출에 빠지는 문제를 해결하고자 합니다.#Review#Tool Use#Execution Errors#Error Recovery#Reinforcement Learning#LLMs#Agentic AI#GRPO#FISSION2026년 2월 1일댓글 수 로딩 중
[논문리뷰] Thinking with Programming Vision: Towards a Unified View for Thinking with Images본 논문은 기존 MLLM이 단순한 이미지 변형(방향 전환, 뒤집기 등)에 취약하며, 제한적이고 유연하지 못한 도구 사용으로 인해 시각적 추론 성능 향상이 미미하다는 문제를 제기합니다.#Review#Multimodal LLM#Tool Learning#Code Generation#Reinforcement Learning#Image Manipulation#Robustness#Error Recovery#Programming Vision2025년 12월 3일댓글 수 로딩 중
[논문리뷰] Mano Report본 논문은 시각적 복잡성, 동적 환경, 다단계 추론 요구사항으로 인해 어려운 GUI 상호작용 자동화 문제를 해결하는 것을 목표로 합니다.#Review#GUI Agent#Multi-modal Foundation Model#Reinforcement Learning#Supervised Fine-tuning#Simulated Environment#Data Generation#Error Recovery#Web Automation2025년 9월 23일댓글 수 로딩 중