[논문리뷰] ACC: Compiling Agent Trajectories for Long-Context Training

2026년 5월 21일수정: 2026년 5월 21일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Qisheng Su, Zhen Fang, Shiting Huang, Yu Zeng, Yiming Zhao, Kou Shi, Ziao Zhang, Lin Chen, Zehui Chen, Lijun Wu, Feng Zhao

1. Key Terms & Definitions (핵심 용어 및 정의)

Agent Context Compilation (ACC): 에이전트의 다중 턴(multi-turn) 궤적을 단일 컨텍스트로 결합하여 모델이 도구 사용 없이도 장거리 의존성을 직접 추론하도록 학습시키는 기법입니다.
Supervision Blind Spot: 표준 에이전트 SFT에서 도구 응답(observation)이 마스킹되어, 답변 생성에 필수적인 정보가 손실되거나 역전파 과정에서 신호가 약화되는 학습상 한계점을 의미합니다.
MRCR (Multi-Round Coreference Resolution): 여러 턴에 걸쳐 분산된 정보를 기반으로 공지시어(coreference)를 해결해야 하는 고난도 장거리 의존성 벤치마크입니다.
GraphWalks: 확장된 컨텍스트 내에서 그래프 탐색 및 관계 추론을 수행하는 능력을 측정하는 벤치마크입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 연구는 기존 에이전트 학습(SFT)이 도구 응답을 차단함으로써 장거리 컨텍스트 상의 핵심 증거를 활용하지 못하는 Supervision Blind Spot 문제를 해결하고자 합니다. 대규모 에이전트 궤적은 문제 해결에 필요한 정보가 여러 턴에 흩어져 있으나, 표준 학습 방식은 이를 무시하고 로컬 도구 선택만을 감독합니다 [Figure 1]. 이러한 한계는 모델이 분산된 증거를 통합하여 추론하는 능력을 저해하며, 이를 극복하기 위해 추가적인 인간 주석 없이도 효율적인 지도 학습 데이터를 생성할 수 있는 새로운 접근 방식이 필요합니다.

Figure 1: ACC 학습 파이프라인 개요

Figure 1 — ACC 학습 파이프라인 개요

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 에이전트 궤적을 long-context QA pairs로 변환하는 ACC(Agent Context Compilation)를 제안합니다. 제안 방법론은 에이전트가 수집한 도구 응답과 환경 관찰 결과를 원래의 질문과 함께 결합하여 컨텍스트를 구성하고, 모델이 중간 단계의 도구 호출 없이 직접 답변을 생성하도록 학습합니다 [Figure 1, Figure 2]. 이 과정을 통해 모델은 도구 선택이라는 필터를 거치지 않고 직접적으로 장거리 컨텍스트의 의존성을 학습할 수 있습니다. 실험 결과, Qwen3-30B-A3B 모델에 ACC를 적용했을 때 MRCR에서 68.3점(+18.1), GraphWalks에서 77.5점(+7.6)을 달성하여 Qwen3-235B-A22B와 유사한 성능을 보였습니다 [Table 2]. 특히 GPQA 및 MMLU-Pro와 같은 일반 능력 벤치마크에서도 성능 저하 없이 안정적인 결과를 유지하며 범용성을 입증했습니다 [Table 3]. 또한 기계론적 분석을 통해 ACC 학습 후 모델이 task-adaptive attention restructuring과 expert specialization을 보여주며 데이터의 복잡성에 유연하게 적응함을 확인했습니다 [Figure 5].

Figure 5: 학습 후 어텐션 및 전문가 라우팅 변화

Figure 5 — 학습 후 어텐션 및 전문가 라우팅 변화

4. Conclusion & Impact (결론 및 시사점)

본 논문은 에이전트 궤적을 효과적으로 컴파일하여 장거리 문맥 학습의 효율성을 극대화한 ACC 프레임워크를 성공적으로 제시하였습니다. 이 연구는 고비용의 문서 주석 과정 없이 기존 에이전트 로그를 재사용하여 모델의 추론 능력을 비약적으로 향상시킬 수 있음을 보여줍니다. 학계와 산업계는 이를 통해 적은 파라미터로도 대형 모델 수준의 장거리 의존성 추론을 달성할 수 있게 되었으며, 차세대 대형 모델 학습 시 데이터 구축 전략에 중요한 이정표를 제공할 것으로 기대됩니다.

Figure 2: 검색 에이전트 궤적 컴파일 예시

Figure 2 — 검색 에이전트 궤적 컴파일 예시

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] iTryOn: Mastering Interactive Video Virtual Try-On with Spatial-Semantic Guidance
현재글 : [논문리뷰] ACC: Compiling Agent Trajectories for Long-Context Training
다음글 [논문리뷰] Bernini: Latent Semantic Planning for Video Diffusion