[논문리뷰] From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

2026년 5월 3일수정: 2026년 5월 3일

링크: 논문 PDF로 바로 열기

저자: Qiliang Liang, Hansi Wang, Zhong Liang, Yang Liu

1. Key Terms & Definitions (핵심 용어 및 정의)

SSL (Scheduling-Structural-Logical Representation): LLM 에이전트의 기술(Skill)을 세 가지 레이어(Scheduling, Structural, Logical)로 구조화하여 재사용성과 가독성을 높이는 새로운 표현 방식입니다.
SKILL.md: 현재 에이전트 시스템에서 기술을 정의하기 위해 주로 사용되는 텍스트 기반의 문서 포맷으로, 사람이 읽기에는 좋으나 기계가 구조적 정보를 추출하기에는 다소 불투명합니다.
Skill Discovery: 에이전트가 수행할 수 있는 다양한 기술들 중에서 사용자의 요청과 가장 적합한 기술을 탐색하고 매칭하는 과정입니다.
Risk Assessment: 특정 기술이 호출되기 전, 해당 기술이 수행할 수 있는 잠재적 위험(데이터 유출, 권한 상승 등)을 분석하고 평가하는 프로세스입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM 에이전트 시스템이 사용하는 기술(Skill)의 표현 방식이 텍스트 중심의 파편화된 구조에 머물러 있어, 기계적 reasoning과 자동화된 검증에 한계가 있다는 문제의식에서 출발합니다. 기존 연구들은 기술의 invocation interface, execution structure, 그리고 실제 부작용(side effects)을 하나의 텍스트 표면에 혼재시켜 downstream components가 정보를 재구성하는 데 큰 비용을 소모하게 만듭니다. 저자들은 이러한 정보의 얽힘(entanglement)이 효율적인 기술 탐색과 정교한 위험 평가를 저해하는 핵심 병목이라고 지적하며, 이를 해결하기 위해 명시적인 구조적 표현이 필요함을 강조합니다 [Figure 1].

Figure 1: SSL 표현의 구조적 구성요소 개요

Figure 1 — SSL 표현의 구조적 구성요소 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 Memory Organization Packets, Script Theory, Conceptual Dependency 이론에 기반하여 기술을 3층 구조인 SSL로 변환하는 프레임워크를 제안합니다. SSL은 기술 호출 인터페이스를 담은 Scheduling layer, 실행 단계와 제어 흐름을 정의하는 Structural layer, 그리고 원자적 연산과 리소스 사용을 기술하는 Logical layer로 구성됩니다 [Figure 1]. 이를 실현하기 위해 LLM 기반의 normalizer를 활용하여 비구조화된 SKILL.md 문서를 구조화된 JSON 그래프로 변환합니다. 실험 결과, SSL 기반 표현은 텍스트 전용 baseline 대비 우수한 성능을 입증했습니다. Skill Discovery 태스크에서 MRR(Mean Reciprocal Rank)은 0.573에서 0.707로 개선되었으며 [Table 1], Risk Assessment 태스크에서도 macro F1 점수가 0.744에서 0.787로 향상되었습니다 [Table 3].

4. Conclusion & Impact (결론 및 시사점)

본 논문은 기술 중심의 에이전트 시스템을 위해 명시적인 source-grounded 구조를 제공하는 SSL을 도입하여 기술 관리의 효율성을 증명했습니다. 이 연구는 에이전트 기술이 단순히 언어적 모델링을 넘어, 기계가 검토 가능한 operation-level의evidence를 갖추어야 함을 시사합니다. 향후 SSL은 에이전트의 inspectability를 높이고, 대규모 에이전트 생태계에서 기술 재사용성과 안전성을 보장하는 중요한 중간 표현(intermediate representation)으로 발전할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer
현재글 : [논문리뷰] From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills
다음글 [논문리뷰] LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation