[논문리뷰] The Hitchhiker's Guide to Agentic AI: From Foundations to Systems
링크: 논문 PDF로 바로 열기
저자: Haggai Roitman
## 1. Key Terms & Definitions (핵심 용어 및 정의)
- LLM Agent: 환경과 상호작용하여 관측값(Observation)을 받고, 도구(Tool)를 사용하여 행동(Action)을 수행하며, 목표를 달성할 때까지 반복 루프를 도는 autonomous한 시스템.
- Agent Harness: LLM을 stateful하고 goal-directed한 agent로 변환하기 위해 메모리, 도구 호출, 상태 관리, observability 등을 담당하는 런타임 인프라.
- MCP (Model Context Protocol): LLM 애플리케이션과 외부 도구/데이터 소스를 연결하기 위한 vendor-neutral 개방형 표준 프로토콜.
- A2A (Agent-to-Agent Protocol): 여러 독립적인 agent 간의 inter-agent 통신, 작업 위임(Delegation), 결과 통합을 위한 표준화된 통신 프로토콜.
- Chain-of-Thought (CoT): 모델이 최종 답을 내기 전 중간 추론 단계(reasoning steps)를 생성하도록 유도하여 복잡한 문제 해결 능력을 향상시키는 prompting 기법.
## 2. Motivation & Problem Statement (연구 배경 및 문제 정의) 이 가이드는 현대 AI 시스템의 전체 스택을 이해하고 구축하고자 하는 연구자와 실무자를 위해, LLM의 기초 아키텍처부터 autonomous agentic 시스템까지를 통합적으로 설명합니다. 기존의 개별적인 연구들과 파편화된 기술 지식들 사이에서 practitioner들이 겪는 복잡성을 해소하기 위해, 이론과 실제 구현 디테일을 아우르는 단일화된 unified reference를 제공하는 것을 목적으로 합니다. 특히 단순히 모델을 훈련하는 단계를 넘어, 실제 프로덕션 환경에서 agentic AI를 성공적으로 배포하기 위한 시스템 아키텍처, 병렬화 전략, 안정적인 평가 방법론이 필수적임을 강조합니다.
## 3. Method & Key Results (제안 방법론 및 핵심 결과)
본 문서는 LLM 파이프라인의 전 과정을 체계화하여 5개의 핵심 부분으로 구성된 방법론을 제안합니다. 첫째, Transformer 아키텍처와 Flash Attention, LoRA, MoE 등 효율적 훈련 최적화 기법을 다룹니다. 둘째, PPO, DPO, GRPO 등 RL-for-LLM을 위한 훈련 및 정렬(Alignment) 툴킷을 수학적 유도와 구현 코드와 함께 상세히 분석합니다. 셋째, DeepSeek-R1 및 OpenAI o1 계열 모델의 핵심인 reasoning 증진 기법과 test-time compute scaling laws를 제시합니다. 넷째, agentic AI 구현을 위해 필수적인 RAG, 메모리 시스템, MCP 기반의 도구 통합, A2A 프로토콜 기반의 다중 에이전트 오케스트레이션 패턴을 실무적인 코드 예제와 함께 설명합니다. 마지막으로, 에이전트 시스템을 위한 벤치마크 평가 체계를 정립하여, 정량적인 신뢰성을 확보하는 방법을 안내합니다. [Table 11.2]에서는 분산 훈련을 위한 최신 메모리 최적화 기법들의 효율성을 비교하며, [Table 18.1]에서는 주요 에이전트 프레임워크들의 특성을 분석하여 적재적소의 선택 기준을 제공합니다.

Table 11.2 — FSDP와 ZeRO 기술을 통한 메모리 최적화 효과 비교

Table 18.1 — 다양한 에이전트 오케스트레이션 프레임워크의 특성 및 프로덕션 적합성 비교
## 4. Conclusion & Impact (결론 및 시사점) 본 연구는 고성능 LLM 기반 에이전트 구축이 단순히 프롬프트 엔지니어링을 넘어, 정교한 시스템 인프라와 결합되어야 함을 결론짓습니다. LLM 훈련의 정렬(Alignment)과 reasoning 성능 강화는 시스템 엔지니어링과 밀접하게 연관되어 있으며, MCP나 A2A와 같은 개방형 표준은 AI 생태계의 호환성을 극대화하는 핵심 동력이 될 것입니다. 본 가이드는 이론적 토대와 프로덕션 수준의 구현 지침을 동시에 제공함으로써, 실제 산업계에서 견고하고 확장 가능한 agentic AI 시스템을 구축하는 데 기여합니다.

Figure 21.2 — MCP(Model Context Protocol)의 전체 아키텍처 및 데이터 흐름 다이어그램
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Reinforcement Learning for LLM-based Multi-Agent Systems through Orchestration Traces
- [논문리뷰] FARE: Fast-Slow Agentic Robotic Exploration
- [논문리뷰] Agentic Reasoning for Large Language Models
- [논문리뷰] OpenTinker: Separating Concerns in Agentic Reinforcement Learning
- [논문리뷰] ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
Review 의 다른글
- 이전글 [논문리뷰] ShutterMuse: Capture-Time Photography Guidance with MLLMs
- 현재글 : [논문리뷰] The Hitchhiker's Guide to Agentic AI: From Foundations to Systems
- 다음글 [논문리뷰] TryOnCrafter: Unleashing Camera Trajectories for Realistic Video Virtual Try-on via a Renderable 4D Try-on Proxy
댓글