#LLM Agent

26개의 포스트

[논문리뷰] PalmClaw: A Native On-Device Agent Framework for Mobile Phones

본 논문은 기존 모바일 에이전트가 주로 의존하는 GUI 기반 조작의 한계를 극복하고, 모바일 기기 환경에서 더 효율적이고 제어 가능한 에이전트 프레임워크를 구축하는 것을 목표로 한다.

#Review #Mobile Agent #On-Device #LLM Agent #Device Tools #Execution Boundary #Agent Framework

2026년 7월 15일

[논문리뷰] ResearchStudio-Idea: An Evidence-Grounded Research-Ideation Skill Suite from ML Conference Outcomes

본 논문은 LLM 기반 연구 에이전트의 발전에도 불구하고, 연구 아이디어의 타당성을 문헌에 근거하여 확보하고 잠재적 실패 가능성을 사전에 검토하는 'first-mile' 단계의 체계적인 지원이 부족하다는 문제를 해결합니다.

#Review #Research Ideation #LLM Agent #Evidence-Grounded #Ideation Pattern #Conference Outcomes #Novelty Assessment

2026년 7월 6일

[논문리뷰] SkillHone: A Harness for Continual Agent Skill Evolution Through Persistent Decision History

본 논문은 에이전트의 스킬이 정적인 아티팩트로 취급되어 지속적인 환경 변화와 작업 배포 환경에서 유지보수가 어렵다는 문제를 해결하고자 합니다.

#Review #Agent Skill #Continual Learning #Persistent Decision History #Skill Evolution #LLM Agent #Deep Research #Role-bounded Subagent

2026년 6월 30일

[논문리뷰] LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

본 논문은 기존 AI 기반 교육 솔루션들이 단순 콘텐츠 추천이나 정적인 텍스트 제공에 국한되어, 학습자에게 실질적인 몰입과 이해를 돕는 Embodied 교수 행위를 통합하지 못하는 문제를 해결하고자 합니다 .

#Review #Multi-Agent Framework #Adaptive Personalized Learning #Embodied Teaching #Teaching Action-Speech Alignment #LLM Agent #Education Technology

2026년 6월 16일

[논문리뷰] HarnessBridge: Learnable Bidirectional Controller for LLM Agent Harness

본 논문은 기존의 수동으로 설계된(manually engineered) Harness가 복잡하고 긴 호흡의(long-horizon) 과제에서 비효율적인 상호작용을 초래하는 문제를 해결하고자 합니다.

#Review #LLM Agent #Harness Engineering #Bidirectional Projection #Observation Projection #Action Projection #Unified Instruction Tuning #Long-Horizon Task

2026년 6월 11일

[논문리뷰] Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

본 논문은 LLM 에이전트 워크플로우 및 실행 궤적에 대한 공식적인 모델링, 검증, 디버깅 방법론이 부재한 문제를 해결한다.

#Review #Formal Methods #LLM Agent #Lean4 #Workflow Verification #Trajectory Analysis #FormalAgentLib #LeanEvolve

2026년 6월 8일

[논문리뷰] Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses

본 논문은 기존의 heuristic한 방식이나 단순한 성공/실패 횟수에 의존하는 Agent Skill 업데이트가 비효율적이며, noisy한 편집으로 인해 오히려 성능 저하를 초래할 수 있다는 문제를 해결하고자 한다.

#Review #LLM Agent #Bayesian Evidence #Skill Evolution #SOP #Harness Engineering #Posterior-Guided Optimization

2026년 6월 8일

[논문리뷰] Unsupervised Skill Discovery for Agentic Data Analysis

본 논문은 데이터 분석 에이전트의 성능 향상을 위한 효과적인 스킬을 지도 학습 없이 발견하는 문제를 다룬다. 데이터 분석 작업은 도메인과 데이터 형식이 다양하여 표준화된 파이프라인 적용이 어렵고, 성공 여부를 판단하기 위한 신뢰성 있는 지도 데이터(Annotation)를 획득하는 데 큰 비용이 발생한다.

#Review #Agentic Data Analysis #Unsupervised Skill Discovery #Inference-time Augmentation #LLM Agent #Adaptive Checklist Verifier #Answer Agreement Verifier

2026년 6월 4일

[논문리뷰] Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs

본 논문은 과학적 도해(Scientific Figure) 생성의 자동화가 현실적인 연구 환경의 다양성을 충족하지 못하며, 생성된 출력물이 편집 불가능하다는 한계를 해결하고자 합니다.

#Review #Scientific Figure Generation #Multi-Agent Harness #Editable SVGs #Raster-to-Vector Conversion #CraftBench #LLM Agent #Iterative Refinement

2026년 6월 1일

[논문리뷰] CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

본 논문은 LLM 에이전트의 tool retrieval 과정에서 발생하는 성능 병목 문제를 해결하기 위해 CoHyDE를 제안한다.

#Review #Tool Retrieval #LLM Agent #Dense Encoder #Co-training #Direct Preference Optimization (DPO)#Query Expansion

2026년 5월 28일

[논문리뷰] AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

기존 LLM 에이전트 연구들은 주로 단일 태스크 환경과 즉각적인 도구 응답을 가정하여 평가를 수행해왔습니다. 그러나 실제 환경에서는 도구 호출 시 지연 시간(latency)이 발생하며, 여러 태스크를 동시에 처리해야 하는 상황이 빈번합니다.

#Review #Asynchronous Tool Calling #Multi-task Scenarios #LLM Agent #Temporal Coordination #Latency #Benchmark

2026년 5월 28일

[논문리뷰] ClinSeekAgent: Automating Multimodal Evidence Seeking for Agentic Clinical Reasoning

본 연구는 기존 의료용 LLM 및 agentic 시스템이 이미 정제된 evidence에만 의존하는 수동적 패러다임에 갇혀 있다는 문제의식에서 출발한다.

#Review #ClinSeekAgent #Agentic Clinical Reasoning #Multimodal Evidence Seeking #EHR Retrieval #Clinical Decision Support #LLM Agent #Trajectory Distillation

2026년 5월 21일

[논문리뷰] MAP: A Map-then-Act Paradigm for Long-Horizon Interactive Agent Reasoning

본 논문은 기존의 ReAct나 Chain-of-Thought (CoT)와 같은 에이전트 패러다임이 가진 환경 인식의 시간적 역전 문제를 해결하고자 한다 .

#Review #LLM Agent #Long-Horizon #Cognitive Map #Affordance Theory #Epistemic Bottleneck #Interactive Agent #Environment Understanding

2026년 5월 13일

[논문리뷰] From Storage to Experience: A Survey on the Evolution of LLM Agent Memory Mechanisms

본 논문은 LLM 기반 에이전트 메모리 메커니즘의 파편화된 연구 현황을 통합하고, 기술적 진화 경로를 명확히 정립하기 위해 수행되었다. 기존 연구들은 공학적 시스템 엔지니어링 접근과 인지 과학적 모방 접근 사이에서 분리되어 발전해 왔으며, 이로 인해 메모리 기술의 핵심적인 진화 논리가 체계적으로 정리되지 못했다 .

#Review #LLM Agent #Memory Mechanism #Storage #Reflection #Experience #Continual Learning

2026년 5월 10일

[논문리뷰] AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

본 논문은 최신 AI Accelerator(예: Amazon Trainium)에서 고성능 커널을 개발하는 과정이 극도로 어렵고 고비용이라는 문제를 해결하고자 합니다.

#Review #LLM Agent #Kernel Optimization #AI Accelerator #Amazon Trainium #Beam Search #Optimization Memory

2026년 4월 19일

[논문리뷰] FactReview: Evidence-Grounded Reviews with Literature Positioning and Execution-Based Claim Verification

본 논문은 기존의 LLM 기반 리뷰 시스템들이 논문 본문의 서술에만 과도하게 의존하여, 실제 경험적 증거에 기반한 비판적 평가에 취약하다는 문제를 해결하고자 합니다. 대부분의 기존 시스템은 저자의 서술 품질이나 수사학적 프레임워크에 영향을 받기 쉬우며, 외부 증거(코드, 인접 연구)를 검증하지 못한다는 한계를 가집니다.

#Review #Peer Review #Evidence-Grounded #Claim Verification #Reproducibility #LLM Agent

2026년 4월 7일

[논문리뷰] Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

본 연구는 transformer 추론의 제1 원리에 기반하여 prefill과 decode 단계의 비대칭적 비용을 모델링한 하드웨어 인식 지표인 PTE를 제안한다. PTE는 memory-bound인 decode 비용을 compute-bound인 prefill 토큰 단위로 환산하여 통합함으로써, 하드웨어 프로필에 무관한 일관된 효율성 평가를 가능하게 한다.

#Review #Tool-Integrated Reasoning (TIR)#KV-Cache #PTE (Prefill Token Equivalents)#Inference Efficiency #Hardware-Aware Metric #LLM Agent

2026년 4월 7일

[논문리뷰] Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization

이 논문은 기존 딥 리서치 에이전트의 높은 추론 비용과 지연 시간, 그리고 이질적인 연구 환경 전반에 걸친 낮은 일반화 성능이라는 두 가지 주요 문제를 해결하는 것을 목표로 합니다. 특히, 장기적인(long-horizon) 에이전트 검색 태스크에서 효율성과 일반화 능력을 동시에 향상시키고자 합니다.

#Review #Agentic AI #Long-Horizon Search #Parallel Execution #Data Synthesis #Reinforcement Learning #Generalization #Efficiency #LLM Agent

2026년 2월 26일

[논문리뷰] Closing the Loop: Universal Repository Representation with RPG-Encoder

현재 리포지토리 에이전트들이 단편적인 코드 표현 방식(API 문서, 의존성 그래프)으로 인해 겪는 추론 단절 문제 를 해결하는 것이 목표입니다.

#Review #Code Representation #LLM Agent #Software Engineering AI #Repository Understanding #Repository Generation #Repository Planning Graph (RPG)#Semantic Lifting #Incremental Code Maintenance

2026년 2월 2일

[논문리뷰] ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas

논문은 도구-증강 언어 모델 에이전트 훈련의 어려움(수동 개입, 검증 불가능한 시뮬레이션 환경, 불안정한 장기/다중 턴 학습)을 해결하기 위해 완전히 자동화된 종단 간 프레임워크 ASTRA 를 제안합니다.

#Review #LLM Agent #Tool Use #Trajectory Synthesis #Reinforcement Learning #Environment Synthesis #Data Generation #Multi-turn Interaction #Automated Training

2026년 2월 1일

[논문리뷰] Towards Interactive Intelligence for Digital Humans

본 논문은 기존의 모방적인 디지털 휴먼이 가지는 상호작용 논리 및 자율성 부족 문제를 해결하고, 개성-정렬 표현, 적응적 상호작용, 자가 진화 능력 을 갖춘 '상호작용 지능(Interactive Intelligence)' 을 구현하는 것을 목표로 합니다.

#Review #Digital Human #Interactive Intelligence #Multimodal Interaction #LLM Agent #Real-time Animation #Persona Fidelity #Diffusion Models

2025년 12월 15일

[논문리뷰] Fact2Fiction: Targeted Poisoning Attack to Agentic Fact-checking System

본 연구는 최신 LLM 기반 에이전트 팩트체킹 시스템 이 잘못된 정보를 확산시키거나 진실을 훼손할 수 있는 포이즈닝 공격에 취약함을 지적합니다. 기존 공격 방식은 이러한 정교한 시스템의 클레임 분해 및 교차 검증 메커니즘에 효과적이지 못합니다.

#Review #Adversarial Attack #Poisoning Attack #Fact-checking #LLM Agent #Retrieval Augmented Generation #Misinformation #System Security

2025년 8월 12일

[논문리뷰] LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

본 논문은 기존 도구 사용 벤치마크가 시뮬레이션되거나 소규모의 MCP(Model Context Protocol) 서버에 국한되어 실제 대규모의 동적인 환경을 반영하지 못하는 한계를 지적합니다.

#Review #LLM Agent #Tool-use #MCP #Benchmark #Large-scale #Real-world tasks #Automated Evaluation #Meta-tool-learning

2025년 8월 6일

[논문리뷰] A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

이 논문은 추론 중심 LLM(도구 사용 불가)과 에이전트 중심 LLM(추론 능력 부족) 간의 근본적인 격차를 해결하고자 합니다.

#Review #Adaptive Agent #Foundation Model #Hybrid Reasoning #Tool-Aware LLM #Mode Selection #Reinforcement Learning #Cost Efficiency #LLM Agent

2025년 10월 20일

[논문리뷰] JoyAgent-JDGenie: Technical Report on the GAIA

본 논문은 LLM 기반 에이전트 시스템들이 복잡한 실세계 태스크를 해결하는 데 있어 견고성, 적응성, 재현성이 부족하다는 문제를 제기합니다. 기존 시스템들이 툴킷 확장, 프롬프트 개선 등 개별적인 측면에만 집중하여 통합 프레임워크가 부재했기 때문입니다.

#Review #Generalist Agent #Multi-Agent System #Plan-Execute #ReAct #Hierarchical Memory #Tool Integration #GAIA Benchmark #LLM Agent

2025년 10월 2일

[논문리뷰] An Empirical Study of Testing Practices in Open Source AI Agent Frameworks and Agentic Applications

본 연구는 FM(Foundation Model) 기반 AI 에이전트 의 본질적인 비결정론적 특성과 재현 불가능성으로 인한 테스팅 및 품질 보증 문제를 해결하고자 합니다.

#Review #AI Agent #LLM Agent #Testing #Empirical Study #Software Quality #Agent Frameworks #Agentic Applications #Non-Determinism

2025년 10월 2일