[논문리뷰] ClawArena: Benchmarking AI Agents in Evolving Information Environments저자들은 에이전트의 성능을 다차원적으로 평가하기 위해 8개 전문 도메인, 64개 시나리오, 1,879개 라운드로 구성된 ClawArena 벤치마크를 구축하였습니다 . 각 시나리오는 숨겨진 Ground Truth를 바탕으로 구성되며, 에이전트는 노이즈가 섞인 부분적인 정보만을 관찰하여 추론해야 합니다.#Review#AI Agents#Benchmark#Information Environments#Multi-source Reasoning#Belief Revision#Implicit Personalization2026년 4월 6일댓글 수 로딩 중
[논문리뷰] Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent MemoryarXiv에 게시된 'Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Memory#AI Agents#Autonomous Scientific Discovery#Lifelong Learning#Retrieval-Augmented Generation#AutoML#Neural Architecture Search2026년 4월 2일댓글 수 로딩 중
[논문리뷰] Superintelligence and Lawnoamkolt이 arXiv에 게시한 'Superintelligence and Law' 논문에 대한 자세한 리뷰입니다.#Review#Superintelligence#AI Agents#Legal Alignment#Rule of Law#Legal Order#Legal Personhood#Coevolution2026년 3월 30일댓글 수 로딩 중
[논문리뷰] SkillNet: Create, Evaluate, and Connect AI SkillsarXiv에 게시된 'SkillNet: Create, Evaluate, and Connect AI Skills' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Skill Management#Knowledge Engineering#Skill Ontology#Multi-dimensional Evaluation#LLM-based Agents#Skill Reuse#Transferable Mastery2026년 3월 5일댓글 수 로딩 중
[논문리뷰] Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool DescriptionsAhmed E. Hassan이 arXiv에 게시한 'Model Context Protocol (MCP) Tool Descriptions Are Smelly! Towards Improving AI Agent Efficiency with Augmented MCP Tool Descriptions' 논문에 대한 자세한 리뷰입니다.#Review#Model Context Protocol#AI Agents#Tool Descriptions#Software Smells#Prompt Engineering#Foundation Models#Performance Evaluation#Ablation Study2026년 2월 25일댓글 수 로딩 중
[논문리뷰] Implicit Intelligence -- Evaluating Agents on What Users Don't SayMarc Wetter이 arXiv에 게시한 'Implicit Intelligence -- Evaluating Agents on What Users Don't Say' 논문에 대한 자세한 리뷰입니다.#Review#Implicit Intelligence#AI Agents#Agent-as-a-World#Contextual Reasoning#Safety#Privacy#Accessibility#LLM Evaluation2026년 2월 24일댓글 수 로딩 중
[논문리뷰] Agents of ChaosKoyena Pal이 arXiv에 게시한 'Agents of Chaos' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Red-teaming#Agentic Systems#Multi-Agent Communication#Security Vulnerabilities#Prompt Injection#Social Engineering#Resource Management2026년 2월 23일댓글 수 로딩 중
[논문리뷰] Towards a Science of AI Agent ReliabilityarXiv에 게시된 'Towards a Science of AI Agent Reliability' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Reliability#Evaluation Metrics#Consistency#Robustness#Predictability#Safety#Benchmarks2026년 2월 18일댓글 수 로딩 중
[논문리뷰] Towards Autonomous Mathematics ResearcharXiv에 게시된 'Towards Autonomous Mathematics Research' 논문에 대한 자세한 리뷰입니다.#Review#Mathematics Research#Large Language Models#AI Agents#Theorem Proving#Tool Use#Gemini Deep Think#Autonomous Research#Human-AI Collaboration2026년 2월 11일댓글 수 로딩 중
[논문리뷰] Research on World Models Is Not Merely Injecting World Knowledge into Specific TasksarXiv에 게시된 'Research on World Models Is Not Merely Injecting World Knowledge into Specific Tasks' 논문에 대한 자세한 리뷰입니다.#Review#World Models#Unified Framework#Multimodal AI#Embodied AI#Physical Understanding#Long-term Consistency#AI Agents#Generative Models2026년 2월 3일댓글 수 로딩 중
[논문리뷰] DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research AgentsarXiv에 게시된 'DeepSearchQA: Bridging the Comprehensiveness Gap for Deep Research Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Deep Research#Benchmark#Information Retrieval#Comprehensiveness#Multi-step Reasoning#Evaluation#LLM-as-a-Judge2026년 1월 29일댓글 수 로딩 중
[논문리뷰] AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and SecurityarXiv에 게시된 'AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Safety Guardrails#Explainable AI (XAI)#Risk Taxonomy#Benchmarking#LLM Safety#Tool Use#Agent Alignment2026년 1월 27일댓글 수 로딩 중
[논문리뷰] Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMsarXiv에 게시된 'Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Data Preparation#LLMs#Data Cleaning#Data Integration#Data Enrichment#AI Agents#Semantic Reasoning#Workflow Automation2026년 1월 26일댓글 수 로딩 중
[논문리뷰] Towards Automated Kernel Generation in the Era of LLMsYixin Shen이 arXiv에 게시한 'Towards Automated Kernel Generation in the Era of LLMs' 논문에 대한 자세한 리뷰입니다.#Review#Large Language Models#Kernel Generation#GPU Optimization#AI Agents#Code Synthesis#Performance Engineering#Hardware Acceleration2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line InterfacesHarsh Raj이 arXiv에 게시한 'Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#LLM Evaluation#Benchmarking#Command Line Interface#Software Engineering#Realistic Tasks#Error Analysis2026년 1월 22일댓글 수 로딩 중
[논문리뷰] Monadic Context EngineeringarXiv에 게시된 'Monadic Context Engineering' 논문에 대한 자세한 리뷰입니다.#Review#Monads#Functional Programming#AI Agents#State Management#Error Handling#Concurrency#Monad Transformers#Meta-Agents2025년 12월 29일댓글 수 로딩 중
[논문리뷰] Memory in the Age of AI AgentsYanwei Yue이 arXiv에 게시한 'Memory in the Age of AI Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Memory Systems#LLMs#Taxonomy#Continual Learning#Self-Evolution#Multimodality#Reinforcement Learning2025년 12월 15일댓글 수 로딩 중
[논문리뷰] DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent SystemsarXiv에 게시된 'DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems' 논문에 대한 자세한 리뷰입니다.#Review#LLM Multi-Agent Systems#Debugging#Intervention-Driven#Failure Attribution#Automated Debugging#Verification#AI Agents#Reliability2025년 12월 8일댓글 수 로딩 중
[논문리뷰] How Far Are We from Genuinely Useful Deep Research Agents?Xinran Zhou이 arXiv에 게시한 'How Far Are We from Genuinely Useful Deep Research Agents?' 논문에 대한 자세한 리뷰입니다.#Review#Deep Research Agents#Evaluation Benchmark#Failure Taxonomy#Report Generation#Information Retrieval#Reasoning Resilience#Content Fabrication#AI Agents2025년 12월 1일댓글 수 로딩 중
[논문리뷰] General Agentic Memory Via Deep ResearcharXiv에 게시된 'General Agentic Memory Via Deep Research' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Memory Systems#Large Language Models (LLMs)#Just-in-Time (JIT) Compilation#Memorizer#Researcher#Reinforcement Learning#Context Management2025년 11월 24일댓글 수 로딩 중
[논문리뷰] LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low CostKengo Tajiri이 arXiv에 게시한 'LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost' 논문에 대한 자세한 리뷰입니다.#Review#Chaos Engineering#Large Language Models#System Resilience#Kubernetes#Software Automation#AI Agents#Fault Injection2025년 11월 18일댓글 수 로딩 중
[논문리뷰] Agentic Refactoring: An Empirical Study of AI Coding AgentsHajimu Iida이 arXiv에 게시한 'Agentic Refactoring: An Empirical Study of AI Coding Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Code Refactoring#Software Engineering#Empirical Study#Large Language Models#Code Quality#Agentic Software Development#Maintainability2025년 11월 12일댓글 수 로딩 중
[논문리뷰] HaluMem: Evaluating Hallucinations in Memory Systems of AgentsarXiv에 게시된 'HaluMem: Evaluating Hallucinations in Memory Systems of Agents' 논문에 대한 자세한 리뷰입니다.#Review#Memory Systems#AI Agents#Hallucination Detection#Evaluation Benchmark#Long-term Memory#Memory Extraction#Memory Updating#Question Answering2025년 11월 10일댓글 수 로딩 중
[논문리뷰] Jailbreaking in the HaystackAlexander Robey이 arXiv에 게시한 'Jailbreaking in the Haystack' 논문에 대한 자세한 리뷰입니다.#Review#Jailbreaking#LLM Safety#Long-Context Models#Positional Bias#Attack Success Rate (ASR)#Prompt Engineering#Compute Efficiency#AI Agents2025년 11월 9일댓글 수 로딩 중
[논문리뷰] CodeClash: Benchmarking Goal-Oriented Software EngineeringarXiv에 게시된 'CodeClash: Benchmarking Goal-Oriented Software Engineering' 논문에 대한 자세한 리뷰입니다.#Review#Software Engineering Benchmarking#Language Models#AI Agents#Goal-Oriented Development#Competitive Programming#Code Evolution#Strategic Reasoning#Autonomous Systems2025년 11월 9일댓글 수 로딩 중
[논문리뷰] ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?Ian L. V. Roque이 arXiv에 게시한 'ReplicationBench: Can AI Agents Replicate Astrophysics Research Papers?' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Astrophysics Research#Reproducibility Benchmark#Large Language Models#Scientific Workflow#Code Execution#Evaluation Framework2025년 10월 29일댓글 수 로딩 중
[논문리뷰] AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research SuiteBhavana Dalvi이 arXiv에 게시한 'AstaBench: Rigorous Benchmarking of AI Agents with a Scientific Research Suite' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Benchmarking#Scientific Research#LLM Evaluation#Agentic AI#Tool Use#Reproducibility#Cost-Aware Evaluation2025년 10월 27일댓글 수 로딩 중
[논문리뷰] Dyna-Mind: Learning to Simulate from Experience for Better AI AgentsQianhui Wu이 arXiv에 게시한 'Dyna-Mind: Learning to Simulate from Experience for Better AI Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Reinforcement Learning#World Models#Simulation#Reasoning#Language Models#Planning#Interactive AI2025년 10월 13일댓글 수 로딩 중
[논문리뷰] Instruction-Following Evaluation in Function Calling for Large Language ModelsNikolaiSkripko이 arXiv에 게시한 'Instruction-Following Evaluation in Function Calling for Large Language Models' 논문에 대한 자세한 리뷰입니다.#Review#Function Calling#LLMs#Instruction Following#Benchmarking#JSON Schema#AI Agents#Evaluation Metrics2025년 9월 29일댓글 수 로딩 중
[논문리뷰] On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHubHajimu Iida이 arXiv에 게시한 'On the Use of Agentic Coding: An Empirical Study of Pull Requests on GitHub' 논문에 대한 자세한 리뷰입니다.#Review#Agentic Coding#AI Agents#Large Language Models#GitHub Pull Requests#Software Engineering#Empirical Study#Code Generation#Software Development2025년 9월 25일댓글 수 로딩 중
[논문리뷰] SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?Yannis Yiming He이 arXiv에 게시한 'SWE-Bench Pro: Can AI Agents Solve Long-Horizon Software Engineering Tasks?' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Software Engineering#LLMs#Code Generation#Benchmark#Contamination Resistance#Long-Horizon Tasks#Enterprise Software2025년 9월 23일댓글 수 로딩 중
[논문리뷰] Virtual Agent EconomiesWilliam A. Cunningham이 arXiv에 게시한 'Virtual Agent Economies' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Virtual Economy#Multi-Agent Systems#Economic Mechanisms#Governance#Blockchain#Resource Allocation#Agent Alignment2025년 9월 15일댓글 수 로딩 중
[논문리뷰] Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI AgentsJames Zou이 arXiv에 게시한 'Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Research Reproducibility#Scientific Communication#Model Context Protocol (MCP)#Natural Language Interaction#Genomics#Single-Cell Analysis#Spatial Transcriptomics2025년 9월 9일댓글 수 로딩 중
[논문리뷰] aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI ScientistsHeng Zhang이 arXiv에 게시한 'aiXiv: A Next-Generation Open Access Ecosystem for Scientific Discovery Generated by AI Scientists' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Open Access#Scientific Discovery#Peer Review#LLMs#Multi-agent Systems#Prompt Injection#Iterative Refinement2025년 8월 22일댓글 수 로딩 중
[논문리뷰] LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Querieshuuuyeah이 arXiv에 게시한 'LiveMCP-101: Stress Testing and Diagnosing MCP-enabled Agents on Challenging Queries' 논문에 대한 자세한 리뷰입니다.#Review#AI Agents#Tool Use#Model Context Protocol (MCP)#Benchmarking#Large Language Models (LLMs)#Real-world Tasks#Evaluation#Error Analysis2025년 8월 22일댓글 수 로딩 중
[논문리뷰] MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing AgentsJun Dong이 arXiv에 게시한 'MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents' 논문에 대한 자세한 리뷰입니다.#Review#Multimodal Browsing#AI Agents#Benchmark#Vision-Language Models#Reasoning#Tool Use#Deep Search2025년 8월 20일댓글 수 로딩 중
[논문리뷰] Agent Lightning: Train ANY AI Agents with Reinforcement LearningZilong Wang이 arXiv에 게시한 'Agent Lightning: Train ANY AI Agents with Reinforcement Learning' 논문에 대한 자세한 리뷰입니다.#Review#Reinforcement Learning#Large Language Models#AI Agents#Framework#Markov Decision Process#Hierarchical RL#Training-Agent Disaggregation#Observability2025년 8월 7일댓글 수 로딩 중