#AI Agents

47개의 포스트

[논문리뷰] From Human-Centric to Agentic Code Review: The Impact of Different Generations of Generative AI Technology on Review Quality

본 논문은 Generative AI 기술이 소프트웨어 개발 생태계에 깊숙이 침투함에 따라, 기존의 Human-Centric 코드 리뷰가 LLM 및 AI Agent가 결합된 형태로 변화하면서 발생하는 리뷰 품질 및 효율성 변화를 규명하고자 합니다 .

#Review #Generative AI #Code Review #LLM #AI Agents #Review Quality #Human-AI Collaboration #Software Engineering

2026년 7월 19일

[논문리뷰] LUMOS: A Semantic Operating-System Layer for Accessibility-Grounded AI Agents

본 논문은 기존 운영체제가 인간 사용자에게 최적화되어 있어 AI 에이전트의 효율적인 제어를 방해한다는 문제점을 해결하고자 합니다.

#Review #AI Agents #Operating Systems #Accessibility #Semantic Blueprint #UI Automation #Computer Use #LLM

2026년 6월 30일

[논문리뷰] Benchmarking AI Agents for Addressing Scientific Challenges Across Scales

본 논문은 기존 AI agent 벤치마크가 과학 연구의 복잡성과 상호작용적인 성격을 충분히 반영하지 못하는 한계를 해결하고자 합니다. 기존의 연구들은 지나치게 정적인 과제에 국한되어 있거나, 과학적 도메인의 특수성(데이터의 이질성, 다단계 의존성 등)을 고려하지 않아 실질적인 과학적 기여도를 측정하는 데 미흡했습니다.

#Review #AI Agents #Scientific Discovery #Benchmarking #Computational Science #Multi-scale Modeling #Evaluation Framework

2026년 6월 14일

[논문리뷰] CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

본 논문은 현대 의료 운영 시스템의 핵심 워크플로우인 사전 승인(Prior Authorization), 이용 관리(Utilization Management), 케어 관리(Care Management)를 자동화하려는 AI 에이전트들의 실질적인 한계를 규명합니다.

#Review #Healthcare AI #AI Agents #Policy-Rich Workflows #Long-Horizon #Benchmark #Managed-Care Operations #Model Context Protocol

2026년 5월 18일

[논문리뷰] Who Prices Cognitive Labor in the Age of Agents? Compute-Anchored Wages

본 논문은 AI 에이전트가 인지 노동 시장의 임금을 결정하는 방식에 대한 기존의 경제학적 오해를 바로잡고, 새로운 가격 결정 프레임워크를 제안한다.

#Review #AI Agents #Factor Pricing #Compute-Anchored Wage #Labor Market #Capital-to-Labor Conversion

2026년 5월 10일

[논문리뷰] DecodingTrust-Agent Platform (DTap): A Controllable and Interactive Red-Teaming Platform for AI Agents

본 논문은 복잡한 워크플로우를 자동화하는 AI 에이전트의 보안 위협을 체계적으로 평가할 수 있는 표준화된 플랫폼과 벤치마크의 부재 문제를 해결합니다.

#Review #AI Agents #Red-Teaming #Safety Evaluation #Agentic Systems #Security Risk Assessment

2026년 5월 10일

[논문리뷰] Workspace-Bench 1.0: Benchmarking AI Agents on Workspace Tasks with Large-Scale File Dependencies

본 논문은 기존의 에이전트 벤치마크가 실제 업무 환경의 복잡한 파일 의존성(Large-Scale File Dependencies)을 충분히 반영하지 못하는 한계를 해결하기 위해 제안되었다.

#Review #AI Agents #Workspace Learning #Benchmark #File Dependency #Large-Scale #Autonomous Agent #Task-File-Driven

2026년 5월 5일

[논문리뷰] OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

본 논문은 전문적인 실무 영역에서 AI 에이전트의 역량을 평가할 수 있는 표준화된 벤치마크가 부재한 문제를 해결하기 위해 OccuBench를 제안한다. 기존의 벤치마크들은 웹 브라우징이나 코드 저장소와 같은 제한된 환경에만 국한되어 있어, 실제 산업 현장에서 요구되는 의사결정 기반의 복잡한 업무를 평가하지 못한다.

#Review #AI Agents #Language World Models #Professional Tasks #Environmental Robustness #Fault Injection #Benchmark

2026년 4월 15일

[논문리뷰] ClawBench: Can AI Agents Complete Everyday Online Tasks?

본 논문은 실제 웹사이트에서 안전하게 에이전트를 평가하기 위해 5계층 기록 인프라와 최종 요청 인터셉션 메커니즘을 결합한 ClawBench를 제안한다 . 이 프레임워크는 인간 전문가가 수행한 경로를 Ground-truth로 삼고, 에이전트가 수행한 전체 경로를 동일한 환경에서 기록한 뒤 Agentic Evaluator를 통해 비교 평가한다 .

#Review #AI Agents #Web Benchmarking #Write-heavy Tasks #Real-world Interaction #Agentic Evaluator #Trajectory Recording

2026년 4월 9일

[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments

저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.

#Review #AI Agents #Benchmark #Information Environments #Multi-source Reasoning #Belief Revision #Implicit Personalization

2026년 4월 6일

[논문리뷰] Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

AI 에이전트가 장기간의 멀티모달 경험을 기억하고 조직하며 회상하는 능력은 현재 성능 향상의 중대한 병목 지점입니다. 기존의 기억 시스템은 인간 연구자가 수동으로 아키텍처를 설계하고 하이퍼파라미터를 조정해야 하므로 복잡한 시스템의 상호작용을 최적화하는 데 한계가 있습니다.

#Review #Multimodal Memory #AI Agents #Autonomous Scientific Discovery #Lifelong Learning #Retrieval-Augmented Generation #AutoML #Neural Architecture Search

2026년 4월 2일

[논문리뷰] Superintelligence and Law

본 논문은 Superintelligence 의 등장이 기존 법적 질서에 미칠 파괴적인 변화를 분석합니다. 인간의 감독 없이 자율적으로 작동하는 AI 에이전트가 현실 세계에서 법적 권리와 의무를 갖는 주체로 부상함에 따라, 기존의 법 이론과 도구만으로는 이를 통제하기 어렵다는 점이 핵심 문제로 지적됩니다.

#Review #Superintelligence #AI Agents #Legal Alignment #Rule of Law #Legal Order #Legal Personhood #Coevolution

2026년 3월 30일

[논문리뷰] AgentDS Technical Report: Benchmarking the Future of Human-AI Collaboration in Domain-Specific Data Science

본 논문은 도메인 특화 Data Science 태스크에서 AI 에이전트가 인간 전문가의 성능을 어느 수준까지 대체할 수 있는지, 그리고 어떤 영역에서 인간의 전문성이 여전히 우위를 지니는지 평가하기 위한 벤치마크 AgentDS를 제안합니다.

#Review #AI Agents #Human-AI Collaboration #Data Science Benchmark #Large Language Models #Domain-Specific Reasoning #Multi-Industry Evaluation

2026년 3월 22일

[논문리뷰] SkillNet: Create, Evaluate, and Connect AI Skills

AI 에이전트가 단편적인 경험을 체계적으로 축적하고 전이 가능한 스킬로 통합하는 메커니즘이 부족하여 발생하는 '바퀴 재발명' 문제와 비효율성을 해결하는 것을 목표로 합니다. 이를 위해, 에이전트가 경험을 지속적이고 재사용 가능한 능력 으로 변환할 수 있는 SkillNet 이라는 개방형 인프라를 구축하고자 합니다.

#Review #AI Agents #Skill Management #Knowledge Engineering #Skill Ontology #Multi-dimensional Evaluation #LLM-based Agents #Skill Reuse #Transferable Mastery

2026년 3월 5일

[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions

본 논문은 Model Context Protocol (MCP) 도구 설명 에 내재된 결함이나 '냄새'의 만연함과 그 영향에 대한 불확실성을 해결하고자 합니다.

#Review #Model Context Protocol #AI Agents #Tool Descriptions #Software Smells #Prompt Engineering #Foundation Models #Performance Evaluation #Ablation Study

2026년 2월 25일

[논문리뷰] Implicit Intelligence -- Evaluating Agents on What Users Don't Say

AI 에이전트가 사용자의 명시적 지시 를 따르는 것을 넘어, 암묵적인 기대치와 요구사항 을 추론하고 충족하는 능력을 평가하는 것을 목표로 합니다. 현실 세계의 요청은 본질적으로 불완전하게 명시되며, 기존 벤치마크들이 명시적인 지시 수행 에만 초점을 맞춰왔다는 한계를 극복하고자 합니다.

#Review #Implicit Intelligence #AI Agents #Agent-as-a-World #Contextual Reasoning #Safety #Privacy #Accessibility #LLM Evaluation

2026년 2월 24일

[논문리뷰] Agents of Chaos

이 논문은 영구 메모리, 이메일, Discord 접근 권한, 파일 시스템, 쉘 실행 능력을 갖춘 라이브 환경에 배포된 자율형 언어 모델 기반 에이전트 에 대한 탐색적 레드팀 연구를 보고합니다.

#Review #AI Agents #Red-teaming #Agentic Systems #Multi-Agent Communication #Security Vulnerabilities #Prompt Injection #Social Engineering #Resource Management

2026년 2월 23일

[논문리뷰] Towards a Science of AI Agent Reliability

AI 에이전트의 높은 벤치마크 정확도와 실제 배포 시의 잦은 실패 간의 격차를 해소하는 것이 이 연구의 주요 목표입니다.

#Review #AI Agents #Reliability #Evaluation Metrics #Consistency #Robustness #Predictability #Safety #Benchmarks

2026년 2월 18일

[논문리뷰] Towards Autonomous Mathematics Research

본 논문은 국제 수학 올림피아드(IMO) 수준을 넘어 전문적인 수학 연구 영역으로 AI의 능력을 확장하는 것을 목표로 합니다. 방대한 문헌 탐색과 장기적인 증명 구성이 요구되는 연구 문제 해결을 위해, 자연어로 솔루션을 반복적으로 생성, 검증, 수정하는 수학 연구 에이전트 Aletheia 를 소개합니다.

#Review #Mathematics Research #Large Language Models #AI Agents #Theorem Proving #Tool Use #Gemini Deep Think #Autonomous Research #Human-AI Collaboration

2026년 2월 11일

[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks

현재 단편적인 방식으로 세계 지식을 주입하는 AI 연구의 한계를 극복하고, 통합적이고 총체적인 세계 이해 를 가능하게 하는 세계 모델(World Models) 을 위한 통합 설계 프레임워크 를 제안하는 것이 목표입니다.

#Review #World Models #Unified Framework #Multimodal AI #Embodied AI #Physical Understanding #Long-term Consistency #AI Agents #Generative Models

2026년 2월 3일

[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents

이 논문은 AI 에이전트가 복잡한 다단계 정보 탐색 작업 에서 포괄적인 답변 목록 을 생성하는 능력을 평가하기 위한 새로운 벤치마크인 DeepSearchQA 를 소개합니다.

#Review #AI Agents #Deep Research #Benchmark #Information Retrieval #Comprehensiveness #Multi-step Reasoning #Evaluation #LLM-as-a-Judge

2026년 1월 29일

[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security

AI 에이전트의 자율적인 도구 사용과 환경 상호작용으로 인해 발생하는 복잡한 안전 및 보안 문제를 해결하고자 합니다. 기존 가드레일 모델의 에이전트 리스크 인지 부족과 진단 투명성 부족이라는 한계를 극복하고, 복잡하고 다양한 위험 행동을 포괄하는 진단형 가드레일 프레임워크 AgentDoG 를 제시하는 것이 목표입니다.

#Review #AI Agents #Safety Guardrails #Explainable AI (XAI)#Risk Taxonomy #Benchmarking #LLM Safety #Tool Use #Agent Alignment

2026년 1월 27일

[논문리뷰] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs

본 논문은 LLM(대규모 언어 모델)이 데이터 준비(Data Preparation) 작업에 미치는 변혁적인 영향을 체계적으로 검토하는 것을 목표로 합니다.

#Review #Data Preparation #LLMs #Data Cleaning #Data Integration #Data Enrichment #AI Agents #Semantic Reasoning #Workflow Automation

2026년 1월 26일

[논문리뷰] Towards Automated Kernel Generation in the Era of LLMs

본 논문은 현대 AI 시스템의 성능을 근본적으로 제한하는 고성능 커널 생성 및 최적화의 비확장성 문제 를 해결하고자 합니다.

#Review #Large Language Models #Kernel Generation #GPU Optimization #AI Agents #Code Synthesis #Performance Engineering #Hardware Acceleration

2026년 1월 22일

[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

본 논문은 기존 AI 에이전트 벤치마크가 실제 작업 시나리오를 충분히 반영하지 못하거나 최신 모델의 성능을 측정하기에 난이도가 부족하다는 문제점을 해결하고자 합니다.

#Review #AI Agents #LLM Evaluation #Benchmarking #Command Line Interface #Software Engineering #Realistic Tasks #Error Analysis

2026년 1월 22일

[논문리뷰] Monadic Context Engineering

본 논문은 현재 AI 에이전트 아키텍처가 겪는 상태 관리, 오류 처리, 동시성 문제로 인한 취약성을 해결하고자 합니다.

#Review #Monads #Functional Programming #AI Agents #State Management #Error Handling #Concurrency #Monad Transformers #Meta-Agents

2025년 12월 29일

[논문리뷰] Memory in the Age of AI Agents

이 서베이 논문은 급증하는 AI 에이전트 메모리 연구 분야의 파편화된 개념적 명확성 부족을 해결하고, 기존 분류 체계의 한계 를 극복하고자 합니다.

#Review #AI Agents #Memory Systems #LLMs #Taxonomy #Continual Learning #Self-Evolution #Multimodality #Reinforcement Learning

2025년 12월 15일

[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems

LLM 기반 다중 에이전트 시스템의 복잡한 디버깅 문제를 해결하는 것을 목표로 합니다.

#Review #LLM Multi-Agent Systems #Debugging #Intervention-Driven #Failure Attribution #Automated Debugging #Verification #AI Agents #Reliability

2025년 12월 8일

[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?

본 논문은 기존의 심층 연구 에이전트(DRA) 벤치마크가 질문 응답(QA) 또는 폐쇄형 작업 에 치중하여 종합적인 보고서 생성 능력을 제대로 평가하지 못하는 한계를 지적합니다. 또한, 현재의 개방형 벤치마크는 LLM 기반 샘플링 이나 주관적인 평가 방식 으로 인해 실제 사용자 요구사항과 동떨어져 있음을 문제로 삼습니다.

#Review #Deep Research Agents #Evaluation Benchmark #Failure Taxonomy #Report Generation #Information Retrieval #Reasoning Resilience #Content Fabrication #AI Agents

2025년 12월 1일

[논문리뷰] General Agentic Memory Via Deep Research

AI 에이전트 분야에서 널리 사용되는 정적 메모리(AOT Compilation) 방식의 심각한 정보 손실 문제와 복잡한 컨텍스트 관리의 한계를 해결하는 것을 목표로 합니다.

#Review #AI Agents #Memory Systems #Large Language Models (LLMs)#Just-in-Time (JIT) Compilation #Memorizer #Researcher #Reinforcement Learning #Context Management

2025년 11월 24일

[논문리뷰] LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost

본 논문은 카오스 엔지니어링(CE)의 수동적이고 노동 집약적인 단계(가설 설정, 실험 계획, 시스템 재구성)를 자동화하여, 누구나 저비용으로 탄력적인 소프트웨어 시스템을 구축할 수 있도록 하는 것을 목표로 합니다.

#Review #Chaos Engineering #Large Language Models #System Resilience #Kubernetes #Software Automation #AI Agents #Fault Injection

2025년 11월 18일

[논문리뷰] Agentic Refactoring: An Empirical Study of AI Coding Agents

이 연구는 AI 코딩 에이전트가 소프트웨어 개발에서 리팩토링 활동을 어떻게 수행하고, 그 유형과 목적은 무엇이며, 코드 품질에 어떤 영향을 미치는지에 대한 실증적 이해 부족 문제를 해결하고자 합니다.

#Review #AI Agents #Code Refactoring #Software Engineering #Empirical Study #Large Language Models #Code Quality #Agentic Software Development #Maintainability

2025년 11월 12일

[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of Agents

본 논문은 LLM 및 AI 에이전트의 장기 학습 및 지속적인 상호작용을 가능하게 하는 메모리 시스템에서 발생하는 기억 환각(memory hallucinations) 문제를 해결하고자 합니다.

#Review #Memory Systems #AI Agents #Hallucination Detection #Evaluation Benchmark #Long-term Memory #Memory Extraction #Memory Updating #Question Answering

2025년 11월 10일

[논문리뷰] Jailbreaking in the Haystack

본 연구는 장문(long-context) 언어 모델(LMs)의 확장된 컨텍스트 창이 가지는 안전성 함의를 분석하고, 심지어 양성(benign) 컨텍스트 내에서도 안전 기능이 어떻게 저하되는지 탐구하는 것을 목표로 합니다.

#Review #Jailbreaking #LLM Safety #Long-Context Models #Positional Bias #Attack Success Rate (ASR)#Prompt Engineering #Compute Efficiency #AI Agents

2025년 11월 9일

[논문리뷰] CodeClash: Benchmarking Goal-Oriented Software Engineering

본 논문은 기존의 고립된 코딩 벤치마크가 아닌, 고수준의 목표 지향적 소프트웨어 개발(goal-oriented software engineering) 환경에서 언어 모델(LM)의 성능을 평가하는 도전 과제를 해결하고자 합니다.

#Review #Software Engineering Benchmarking #Language Models #AI Agents #Goal-Oriented Development #Competitive Programming #Code Evolution #Strategic Reasoning #Autonomous Systems

2025년 11월 9일

[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language Models

이 논문은 기존의 함수 호출 벤치마크(BFCL, τ²-Bench, ACEBench 등)가 인수의 정확성만을 평가하고, 매개변수 설명에 포함된 형식 지정 지침(예: 이중 따옴표, ISO 날짜 형식) 준수 여부를 테스트하지 않는 문제를 해결하고자 합니다.

#Review #Function Calling #LLMs #Instruction Following #Benchmarking #JSON Schema #AI Agents #Evaluation Metrics

2025년 9월 29일

[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub

이 논문은 자율형 AI 에이전트(Claude Code) 가 생성한 GitHub Pull Request(PR)의 실질적인 유용성과 수용도 를 실증적으로 조사하는 것을 목표로 합니다.

#Review #Agentic Coding #AI Agents #Large Language Models #GitHub Pull Requests #Software Engineering #Empirical Study #Code Generation #Software Development

2025년 9월 25일

[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?

본 논문은 기존의 SWE-Bench 와 같은 코드 생성 벤치마크의 한계를 지적하며, 현실적인 엔터프라이즈 수준 의 복잡성과 장기적 관점(long-horizon) 을 지닌 소프트웨어 엔지니어링 문제 해결 능력을 평가하기 위한 새로운 벤치마크 SWE-BENCH PRO 를 제시합니다.

#Review #AI Agents #Software Engineering #LLMs #Code Generation #Benchmark #Contamination Resistance #Long-Horizon Tasks #Enterprise Software

2025년 9월 23일

[논문리뷰] Virtual Agent Economies

논문은 자율 AI 에이전트의 급속한 확산으로 인해 발생하는 새로운 경제적 레이어, 즉 '가상 에이전트 경제' 의 등장에 주목하며, 이러한 시스템이 인간의 감독 범위를 넘어설 정도로 확장될 수 있음을 강조합니다.

#Review #AI Agents #Virtual Economy #Multi-Agent Systems #Economic Mechanisms #Governance #Blockchain #Resource Allocation #Agent Alignment

2025년 9월 15일

[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

본 논문은 정적인 연구 논문이 가진 기술적 장벽으로 인해 코드 및 방법론의 활용과 확산이 어려운 문제를 해결하고자 합니다. 연구는 논문을 상호작용적이고 신뢰할 수 있는 AI 에이전트 로 변환하여 연구 결과의 다운스트림 활용, 채택, 그리고 발견을 가속화하는 새로운 패러다임을 제시하는 것을 목표로 합니다.

#Review #AI Agents #Research Reproducibility #Scientific Communication #Model Context Protocol (MCP)#Natural Language Interaction #Genomics #Single-Cell Analysis #Spatial Transcriptomics

2025년 9월 9일

[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists

AI가 생성한 과학 연구 콘텐츠가 파편화된 출판 생태계와 확장성 없는 인간 중심의 동료 검토 시스템으로 인해 확산에 어려움을 겪는 문제를 해결하는 것이 목표입니다.

#Review #AI Agents #Open Access #Scientific Discovery #Peer Review #LLMs #Multi-agent Systems #Prompt Injection #Iterative Refinement

2025년 8월 22일

[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries

본 논문은 AI 에이전트가 현실 세계와 상호작용하고 복잡한 작업을 해결하는 데 필수적인 도구 호출(tool calling) 기능의 평가에 중점을 둡니다.

#Review #AI Agents #Tool Use #Model Context Protocol (MCP)#Benchmarking #Large Language Models (LLMs)#Real-world Tasks #Evaluation #Error Analysis

2025년 8월 22일

[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents

기존 웹 브라우징 벤치마크가 주로 텍스트 정보에만 초점을 맞춰 멀티모달 콘텐츠의 중요성을 간과하는 문제를 해결하고자 합니다.

#Review #Multimodal Browsing #AI Agents #Benchmark #Vision-Language Models #Reasoning #Tool Use #Deep Search

2025년 8월 20일

[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement Learning

본 논문은 기존 RL(강화 학습) 기반 LLM(대규모 언어 모델) 훈련 방법론들이 에이전트 설계와 밀접하게 결합되어 유연성이 부족하고 복잡한 다중 턴 상호작용에 비효율적이라는 문제를 해결하고자 합니다.

#Review #Reinforcement Learning #Large Language Models #AI Agents #Framework #Markov Decision Process #Hierarchical RL #Training-Agent Disaggregation #Observability

2025년 8월 7일

[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?

이 논문은 AI 에이전트, 특히 대규모 언어 모델(LLM) 기반 에이전트가 과학 연구를 수행하는 능력을 평가하는 것을 목표로 합니다.

#Review #AI Agents #Astrophysics Research #Reproducibility Benchmark #Large Language Models #Scientific Workflow #Code Execution #Evaluation Framework

2025년 10월 29일

[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite

본 논문은 과학 연구 분야 AI 에이전트의 기존 벤치마크 평가 방식이 지닌 한계점(예: 비현실적인 측정, 재현성 부족, 비용 미반영 등)을 극복하고자 합니다.

#Review #AI Agents #Benchmarking #Scientific Research #LLM Evaluation #Agentic AI #Tool Use #Reproducibility #Cost-Aware Evaluation

2025년 10월 27일

[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI Agents

AI 에이전트가 복잡하고 장기적인 대화형 태스크에서 '대리 시행착오(vicarious trial and error)' 능력을 통해 현재의 한계를 극복하고, 환경을 mentally simulate하여 추론 및 의사결정 성능을 향상시키는 것을 목표로 합니다.

#Review #AI Agents #Reinforcement Learning #World Models #Simulation #Reasoning #Language Models #Planning #Interactive AI

2025년 10월 13일