[논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning

2026년 5월 21일수정: 2026년 5월 21일

링크: 논문 PDF로 바로 열기

메타데이터

저자: Banghao Chi, Yining Xie, Mingyuan Wu, et al.

1. Key Terms & Definitions (핵심 용어 및 정의)

Spreadsheet-RL: LLM 에이전트가 복잡한 다단계 스프레드시트 작업을 수행할 수 있도록 강화학습(RL)을 통해 파인튜닝하는 프레임워크입니다.
Spreadsheet Gym: 실제 Microsoft Excel 환경과 파이썬 기반 코드 샌드박스를 통합하여 에이전트가 실시간으로 상호작용하고 수정 작업을 수행할 수 있도록 설계된 인터랙티브 런타임 환경입니다.
GRPO (Group Relative Policy Optimization): 에이전트의 Reasoning과 Tool Use를 최적화하기 위해, 그룹 내 보상 비교를 통해 에이전트의 정책을 업데이트하는 효율적인 RL 알고리즘입니다.
Domain-Spreadsheet: 재무, 공급망 관리 등 전문적인 도메인 지식과 복잡한 분석 워크플로우를 평가하기 위해 구축된 새로운 벤치마크 데이터셋입니다.
Inspect-Modify-Verify Workflow: 에이전트가 스프레드시트의 현재 상태를 파악하고, 최소한의 편집을 수행한 뒤, 최종 결과를 검증하는 체계적인 작업 프로세스입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 기존의 프롬프트 기반 스프레드시트 에이전트가 실제 비즈니스 환경의 복잡하고 다단계적인 워크플로우를 처리하는 데 한계가 있다는 문제 의식에서 출발한다. 기존 연구들은 주로 범용 LLM의 추론 능력과 프롬프트 엔지니어링에 의존하고 있어, 실제 스프레드시트의 데이터 구조와 수식, 포맷팅이 얽힌 복합적인 요구사항을 안정적으로 해결하지 못하는 경우가 많았다. 특히, 데이터 구축의 어려움과 스프레드시트 고유의 긴 호흡(long-horizon) 상호작용 방식은 일반적인 방법론으로 극복하기 어려운 장벽이었다. 저자들은 이를 해결하기 위해 실제 Excel 환경과 긴밀하게 통합된 RL 파인튜닝 방식이 필수적이라고 주장한다 [Figure 2].

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 논문은 Spreadsheet-RL 프레임워크를 제안하며, 자동화된 데이터 수집과 Spreadsheet Gym 환경을 통한 GRPO 기반 RL 학습을 핵심 방법론으로 채택하였다. 저자들은 온라인 포럼에서 대규모의 시작-종료 스프레드시트 쌍을 수집하고, 이를 도메인 특화 벤치마크인 Domain-Spreadsheet로 컴파일하여 에이전트의 범용성과 도메인 적응력을 높였다. 실험 결과, Qwen3-4B-Thinking-2507 모델에 본 방법론을 적용했을 때 SpreadsheetBench에서의 Pass@1 성능이 기존 12.0%에서 23.4%로 대폭 향상되었다 [Table 1]. 또한, Domain-Spreadsheet 데이터셋에서도 전체 Pass@1이 8.4%에서 17.2%로 상승하며 특히 재무 관련 업무에서 탁월한 성과를 보였다 [Table 2]. 학습 과정에서 에이전트의 응답 길이는 줄어들고 작업 효율성(mean interaction turns)은 개선되어, RL 학습이 단순히 정답률뿐만 아니라 상호작용의 프로토콜 준수 능력도 향상시켰음을 확인하였다 [Figure 4].

4. Conclusion & Impact (결론 및 시사점)

본 연구는 스프레드시트 자동화 분야에서 Outcome-based RL을 효과적인 파인튜닝 패러다임으로 정립하였다. Spreadsheet-RL은 데이터셋, 환경, 학습 파이프라인 전반을 오픈소스로 제공함으로써, 향후 생산성 도구와 LLM 에이전트의 결합을 연구하는 학계와 산업계에 중요한 연구 기반을 마련하였다. 이 연구는 AI가 실제 업무 환경에서 도구(Tool)를 활용하여 어떻게 더 신뢰할 수 있고 정확한 결과를 도출할 수 있는지 보여주는 강력한 실증 사례를 제시한다.

Part 2: 중요 Figure 정보

Figure 2: Spreadsheet-RL 프레임워크 개요

Figure 2 — Spreadsheet-RL 프레임워크 개요

Figure 3: Domain-Spreadsheet 예시

Figure 3 — Domain-Spreadsheet 예시

Figure 4: RL 학습 동력학 결과

Figure 4 — RL 학습 동력학 결과

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] SpaceDG: Benchmarking Spatial Intelligence under Visual Degradation
현재글 : [논문리뷰] Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning
다음글 [논문리뷰] Swift Sampling: Selecting Temporal Surprises via Taylor Series