[논문리뷰] LLM Agents Can See Code Repositories

2026년 6월 14일수정: 2026년 6월 14일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Dongjian Ma, Silin Chen, Yufei Yang, Yulin Shi, Yanfu yan, Xiaodong Gu

1. Key Terms & Definitions (핵심 용어 및 정의)

SeeRepo: 소프트웨어 저장소의 구조적 의존성 그래프를 시각적으로 렌더링하여 LLM 에이전트에게 보조 컨텍스트로 제공하는 프레임워크입니다.
Multimodal Large Language Models (MLLMs): 텍스트와 이미지 데이터를 결합하여 처리하는 모델로, 본 논문에서는 코드 저장소의 시각적 레이아웃과 텍스트 정보를 통합 이해하는 데 활용됩니다.
Pass@1: 소프트웨어 엔지니어링 벤치마크(SWE-bench)에서 에이전트가 단 한 번의 시도로 정확한 패치를 생성하여 이슈를 해결하는 성공률을 측정하는 지표입니다.
Structural Grounding: 저장소의 파일 시스템 계층, 함수 호출 관계 등 비선형적인 구조 정보를 시각적 표현을 통해 모델이 인지할 수 있도록 명확히 투영하는 과정입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 현대적인 코딩 에이전트가 텍스트 기반의 인터페이스에 지나치게 의존함으로써 저장소의 복잡한 구조적 관계를 파악하는 데 한계를 겪고 있다는 점을 해결하고자 합니다 [Figure 2]. 기존 연구들은 소스 코드와 문서를 선형적인 텍스트로 치환하여 처리하는데, 이 과정에서 코드 간의 의존성이나 공간적 배치가 유실되어 효율적인 컨텍스트 탐색이 어렵습니다. 연구진은 인간 개발자가 코드 저장소를 시각적으로 이해하는 방식에 착안하여, Multimodal Large Language Models(MLLMs)를 활용한 시각적 저장소 표현이 모델의 성능과 효율성을 높일 수 있는지에 대해 최초의 체계적인 실증 연구를 수행하였습니다 [Figure 1].

Figure 1: MLLM의 저장소 인식 프로세스

Figure 1 — MLLM의 저장소 인식 프로세스

Figure 2: 연구 설계 및 핵심 결과 요약

Figure 2 — 연구 설계 및 핵심 결과 요약

3. Method & Key Results (제안 방법론 및 핵심 결과)

저자들은 SeeRepo 프레임워크를 통해 저장소의 의존성 그래프(contains, imports, inherits, invokes 관계 포함)를 시각화하여 에이전트에게 제공하는 하이브리드 인터페이스를 제안합니다 [Figure 1]. 실험 결과, 시각 정보만 사용하는(vision-only) 방식은 텍스트 정보의 부재로 인해 성능을 크게 저하시키고 토큰 비용을 폭증시키는 반면, 텍스트와 시각적 컨텍스트를 결합한 하이브리드 방식은 효율성을 극대화함을 확인했습니다 [Table 2]. 특히, GPT-5-mini 모델의 경우, SeeRepo 적용 시 Pass@1 성능을 유지하면서도 입력 토큰 소비를 25% 절감하고 전체 비용을 26% 낮추는 성과를 거두었습니다. 시각적 툴은 에이전트가 탐색 과정을 줄이고 관련 코드 영역을 빠르게 특정할 수 있도록 돕는 Fault Localization 단계에서 가장 높은 효과를 보였습니다 [Table 7]. 다양한 시각적 레이아웃(Graph, Nested, Tabular) 중 Graph 기반 레이아웃이 토큰 효율성 측면에서 가장 우수한 성능을 나타냈습니다 [Figure 3].

Figure 3: GPT-5-mini의 효율성 분석

Figure 3 — GPT-5-mini의 효율성 분석

4. Conclusion & Impact (결론 및 시사점)

본 연구는 코드 저장소의 시각화가 코딩 에이전트의 효율적인 탐색과 이슈 해결에 핵심적인 역할을 할 수 있음을 실증적으로 입증하였습니다. 특히, 시각적 정보는 단순한 대체재가 아닌 텍스트 기반 reasoning을 보조하는 강력한 탐색 가이드로서 작용하여 에이전트의 워크플로우를 최적화합니다. 이러한 하이브리드 모달리티 접근 방식은 차세대 코딩 에이전트 설계에 있어 성능과 비용 간의 최적의 균형(Trade-off)을 찾기 위한 새로운 설계 원칙을 제시하며, 향후 더 복잡한 소프트웨어 엔지니어링 작업에 대한 LLM의 이해도를 높이는 데 크게 기여할 것으로 기대됩니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] Hy-Embodied-0.5-VLA: From Vision-Language-Action Models to a Real-World Robot Learning Stack
현재글 : [논문리뷰] LLM Agents Can See Code Repositories
다음글 [논문리뷰] LoSoNA: A Benchmark for Local Social Norm Adaptation in Group Conversations