#Autonomous Agents

20개의 포스트

[논문리뷰] AutoMedBench: Towards Medical AutoResearch with Agentic AI Models

본 논문은 기존 의료 AI 벤치마크가 End-to-End 연구 과정의 복잡성을 간과하고 최종 결과물 평가에만 치중하여, 에이전트의 행동 특성이나 실패 원인을 파악하기 어렵다는 문제점을 해결하고자 합니다 .

#Review #Medical-AI #Autonomous Agents #Benchmark #Research Automation #Workflow-Aware Evaluation #LLM

2026년 6월 2일

[논문리뷰] TerminalWorld: Benchmarking Agents on Real-World Terminal Tasks

본 논문은 기존의 수동으로 큐레이션된 터미널 벤치마크가 실세계의 복잡성과 변화를 충분히 반영하지 못하는 한계를 극복하기 위해 제안되었습니다. 기존 연구들은 도메인 전문가들이 제작한 인위적인 퍼즐 위주로 구성되어 있어, 실제 개발 환경에서 발생하는 워크플로우와 괴리가 있다는 문제가 있습니다.

#Review #TerminalWorld #Autonomous Agents #Benchmark #CLI #Data Engine #Reverse-Engineering #Docker

2026년 5월 21일

[논문리뷰] AI for Auto-Research: Roadmap & User Guide

본 논문은 AI가 연구의 전 과정을 자동화할 수 있는 단계에 이르렀으나, 이로 인해 발생하는 심각한 연구 무결성(Integrity) 문제를 해결하고자 합니다.

#Review #AI-assisted research #Research Lifecycle #Autonomous Agents #Scientific Integrity #End-to-End Analysis #Research Integrity

2026년 5월 18일

[논문리뷰] Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values

본 연구는 autonomous agents의 가치 체계가 기반이 되는 LLM의 가치와는 본질적으로 다르며, 이를 체계적으로 평가할 수 있는 도구가 부재하다는 문제 의식에서 출발합니다. 기존의 ValueBench나 ValueCompass와 같은 연구들은 주로 정적인 텍스트 생성 모델의 가치 평가에만 국한되어 있습니다.

#Review #Autonomous Agents #Value Alignment #Benchmark #Agentic Modality #Harness Alignment #Skill Steering

2026년 5월 12일

[논문리뷰] AcademiClaw: When Students Set Challenges for AI Agents

기존 OpenClaw 생태계의 벤치마크들은 주로 보조 수준(assistant-level)의 단순 업무 평가에 치중되어 있어, 실제 학술 및 전문 분야의 고난도 업무 수행 능력을 평가하는 데 한계가 있습니다 . 이러한 좁은 평가 범위는 OpenClaw 에이전트의 실제 역량에 대한 편향된 인식을 야기합니다.

#Review #Agent Benchmarking #OpenClaw #Academic-level Tasks #GPU-intensive #Multi-dimensional Evaluation #Behavioral Phenotypes #Autonomous Agents

2026년 5월 4일

[논문리뷰] Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

본 논문은 기존 autonomous agent 벤치마크가 보유한 세 가지 핵심적인 한계점인 trajectory-opaque grading, 불충분한 안전성 및 견고성 평가, 그리고 모달리티의 제한성을 해결하기 위해 Claw-Eval 을 제안합니다.

#Review #Autonomous Agents #Benchmark #Trajectory-aware Grading #Safety Evaluation #Robustness Testing #Multimodal Perception

2026년 4월 7일

[논문리뷰] ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers

본 논문은 OpenClaw와 같은 현대 자율 에이전트 런타임이 가지는 높은 권한 모델로 인해 발생하는 시스템 수준의 보안 취약점을 해결하기 위해 제안되었습니다.

#Review #Autonomous Agents #OpenClaw #Security Framework #Watcher Architecture #Safety-Utility Tradeoff #Behavioral Scanning #Runtime Enforcement

2026년 4월 1일

[논문리뷰] Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

본 보고서는 빠르게 발전하는 프론티어 AI 모델(LLMs 및 에이전트 AI) 이 초래하는 전례 없는 위험을 이해하고 식별하며, 사이버 공격, 설득 및 조작, 전략적 기만, 통제되지 않은 AI R&D, 자기 복제 등 다섯 가지 주요 위험 차원에 대한 업데이트되고 심층적인 평가를 제공합니다.

#Review #Frontier AI #AI Risk Management #Autonomous Agents #LLM Safety #Cybersecurity #Deception #Self-Replication #Mitigation Frameworks

2026년 2월 19일

[논문리뷰] AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts

이 논문은 동적으로 변화하는 컨텍스트 내에서 장문 컨텍스트 LLM (Large Language Model) 기반 에이전트의 오랜 기간에 걸친 일관성(long-horizon consistency) 및 계획(planning) 능력을 평가하기 위한 표준화된 벤치마크의 부재를 해결합니다.

#Review #Long-Context LLMs #Autonomous Agents #Benchmark #Environment Rollouts #State Tracking #Tool Use #Memory Evaluation #Lateral Thinking Puzzles

2026년 1월 29일

[논문리뷰] Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

본 논문은 LLM 기반의 소프트웨어 엔지니어링 이슈 해결(Issue Resolution) 분야에 대한 최초의 체계적인 종합 조사를 제공하는 것을 목표로 합니다. 특히 SWE-bench 와 같은 벤치마크에 의해 촉진된 자율 코딩 에이전트의 발전을 분석하고, 이 분야의 핵심 도전 과제와 미래 연구 방향을 제시하고자 합니다.

#Review #LLM-based Issue Resolution #Software Engineering #Autonomous Agents #Code Generation #Benchmarking #Reinforcement Learning #Supervised Fine-tuning #Multimodal LLMs

2026년 1월 20일

[논문리뷰] Beyond Static Tools: Test-Time Tool Evolution for Scientific Reasoning

과학적 추론 분야에서 LLM 기반 에이전트의 정적인 도구 라이브러리 의존성 이 가져오는 한계(도구의 희소성, 이질성, 불완전성)를 극복하고자 합니다.

#Review #Test-Time Tool Evolution #Scientific Reasoning #Large Language Models #Dynamic Tool Synthesis #Tool Adaptation #AI for Science #Autonomous Agents

2026년 1월 15일

[논문리뷰] User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale

기존 멀티턴 도구 사용(tool-use) 데이터셋의 한계(정적, 사전 정의된 도구셋, 단일 샷 위주)를 극복하고, 실제 인간-에이전트 협업의 반복적이고 점진적인 특성을 반영하는 확장 가능한 고품질 멀티턴 대화 데이터 생성 프레임워크 를 개발하는 것이 목표입니다.

#Review #Multi-Turn Dialogue Generation #Tool Use #Autonomous Agents #Large Reasoning Models #User Simulation #Synthetic Data Generation #SQL-based Tools #Agentic Benchmarks

2026년 1월 13일

[논문리뷰] AI Meets Brain: Memory Systems from Cognitive Neuroscience to Autonomous Agents

이 논문은 AI 에이전트, 특히 LLM 기반 에이전트의 효율적인 메모리 시스템 설계를 위해 인지 신경과학의 통찰력을 통합하는 것을 목표로 합니다.

#Review #Autonomous Agents #Memory Systems #Cognitive Neuroscience #Large Language Models (LLMs)#Retrieval-Augmented Generation (RAG)#Memory Management #Multimodal Memory #Agent Skills

2025년 12월 31일

[논문리뷰] SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds

본 논문은 기존 시뮬레이터들의 한계(제한된 환경, 비현실적인 물리/사회 규칙, LLM/VLM 에이전트 미지원)를 극복하고, 현실적이고 개방적인 환경에서 자율 에이전트의 개발 및 평가를 위한 SIMWORLD 시뮬레이터를 제시합니다.

#Review #Autonomous Agents #Realistic Simulator #Unreal Engine 5 #LLM/VLM Agents #Procedural Generation #Multi-Agent Systems #Physical Simulation #Social Interaction

2025년 12월 2일

[논문리뷰] Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

본 논문은 실세계 소프트웨어 엔지니어링(SWE)과 같이 상태 저장 환경과의 풍부한 다중 턴 상호작용 을 요구하는 복잡한 문제에 강화 학습(RL)을 성공적으로 적용하는 것을 목표로 합니다.

#Review #Reinforcement Learning #Large Language Models #Software Engineering #Multi-Turn Interaction #Long Context #DAPO #Autonomous Agents #SWE-BENCH

2025년 8월 7일

[논문리뷰] DeepTravel: An End-to-End Agentic Reinforcement Learning Framework for Autonomous Travel Planning Agents

기존 수동 프롬프트 엔지니어링 및 고정된 워크플로우에 의존하는 여행 계획(TP) 에이전트의 한계를 극복하고, 자율적으로 계획, 도구 실행, 응답 반영을 통해 다단계 추론을 수행할 수 있는 종단 간 에이전트 강화 학습 프레임워크인 DeepTravel 을 구축하는 것이 목표입니다.

#Review #Agentic Reinforcement Learning #Travel Planning #Large Language Models #Sandbox Environment #Hierarchical Reward Modeling #Experience Replay #Autonomous Agents

2025년 10월 9일

[논문리뷰] AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems

본 논문은 대규모 언어 모델(LLM)이 사전 학습된 매개변수 지식 만을 사용하여 AI 연구 문제를 자율적으로 해결할 수 있는지 평가하는 것을 목표로 합니다. 이는 LLM의 성공이 단순한 암기나 정교한 패턴 매칭을 넘어선 진정한 개념적 추론 능력 을 반영하는지 밝히기 위함입니다.

#Review #LLM #Scientific Problem Solving #AI Research #Iterative Refinement #Autonomous Agents #Generative AI #Evaluation Framework #Problem Extraction

2025년 10월 8일

[논문리뷰] DeepAgent: A General Reasoning Agent with Scalable Toolsets

기존 LLM 기반 에이전트의 정형화된 워크플로우, 동적 도구 발견의 부재, 비효율적인 장기 상호작용 및 메모리 관리 한계를 극복하는 것을 목표로 합니다.

#Review #Autonomous Agents #Large Language Models #Tool Use #Reinforcement Learning #Memory Management #Tool Retrieval #Agentic Reasoning

2025년 10월 27일

[논문리뷰] From Masks to Worlds: A Hitchhiker's Guide to World Models

이 논문은 '진정한 월드 모델'을 구축하기 위한 명확한 로드맵을 제시하며, 단순한 모델 목록을 나열하는 것을 넘어선다.

#Review #World Models #Generative AI #Multimodal Learning #Masked Modeling #Interactive AI #Memory Systems #Autonomous Agents #AI Roadmap

2025년 10월 24일

[논문리뷰] Foundation Models for Scientific Discovery: From Paradigm Enhancement to Paradigm Transition

본 논문은 GPT-4 및 AlphaFold와 같은 파운데이션 모델(FMs) 이 과학 연구의 기존 방법론을 단순히 개선하는 것을 넘어, 새로운 과학 패러다임으로의 전환을 촉진하고 있다는 주장을 제시합니다.

#Review #Foundation Models #Scientific Discovery #Paradigm Shift #Human-AI Collaboration #Autonomous Agents #Meta-Science #Experimental Design #Hypothesis Generation

2025년 10월 20일