[논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?

2026년 4월 19일수정: 2026년 4월 19일

링크: 논문 PDF로 바로 열기

Part 1: 요약 본문

메타데이터

저자: Pingyue Sheng, Yuhan Cao, Yu Wang, Haoren Luo, jzhao1122

1. Key Terms & Definitions (핵심 용어 및 정의)

Unlearn-and-Reinvent pipeline: 모델의 pretraining 데이터에서 특정 알고리즘 정보를 삭제하고, 해당 모델이 스스로 알고리즘을 재발명(reinvention)할 수 있는지 평가하는 방법론입니다.
GRPO (Group Relative Policy Optimization): on-policy 최적화를 위해 여러 응답의 상대적 보상을 기반으로 advantage를 추정하는 강화학습 기법입니다.
Generative Verifier: 재발명 단계에서 모델이 제출한 솔루션의 오류를 진단하고 피드백을 생성하여, 재시도 시 모델의 추론 과정을 가이드하는 보조 컴포넌트입니다.
Thought Collapse: 재발명 과정에서 verifier의 적절한 피드백이 없을 때, 모델의 추론 토큰 수가 점진적으로 감소하며 탐색 능력이 저하되는 현상입니다.

2. Motivation & Problem Statement (연구 배경 및 문제 정의)

본 논문은 LLM이 단순히 기존 지식을 검색하는 것을 넘어, 컴퓨터 과학의 기초적인 알고리즘을 독자적으로 재발명할 수 있는 창의적 역량을 갖추었는지 검증합니다. 기존 pre-trained 모델은 이미 Dijkstra나 Euclid와 같은 기초 알고리즘을 학습 데이터에 포함하고 있어, 순수한 의미의 '발명'을 확인하기 어렵습니다. 저자들은 컴퓨팅 비용이 막대한 retraining 대신 LLM unlearning 기법을 활용하여 특정 알고리즘 지식을 효과적으로 삭제한 뒤, 재발명 가능성을 측정하는 프레임워크를 제안합니다. 이 과정에서 Qwen3-4B-Thinking-2507 등 오픈 웨이트 모델을 대상으로 실험을 진행합니다 [Figure 1].

Figure 1: Unlearn-and-Reinvent 파이프라인

Figure 1 — Unlearn-and-Reinvent 파이프라인

3. Method & Key Results (제안 방법론 및 핵심 결과)

본 연구는 GRPO 기반의 on-policy unlearning과 cold start 단계를 결합하여 타겟 알고리즘 지식을 모델에서 제거합니다. 재발명 단계에서는 Python interpreter와 상호작용하며, 실패 시 Generative Verifier가 제공하는 진단 피드백을 통해 솔루션을 수정합니다. 실험 결과, 가장 성능이 뛰어난 Qwen3-4B-Thinking-2507 모델은 힌트가 없는 경우 50%의 알고리즘을 성공적으로 재발명하였으며, 단계별 힌트 제공 시 성공률이 90%까지 향상되었습니다 [Table 1]. 또한, Test-time reinforcement learning을 적용했을 때, 정적 unlearned 모델이 해결하지 못했던 Strassen 알고리즘을 성공적으로 재발명하는 성과를 보였습니다 [Table 2]. Verifier를 제거할 경우 'thought collapse' 현상으로 인해 탐색이 조기에 종료되는 반면, verifier 피드백은 모델의 추론 강도를 유지하여 재발명 성공률을 높이는 것으로 나타났습니다 [Figure 4].

Figure 4: 재발명 과정의 토큰 변화 및 verifier 효과

Figure 4 — 재발명 과정의 토큰 변화 및 verifier 효과

4. Conclusion & Impact (결론 및 시사점)

본 논문은 LLM이 알고리즘 지식을 제거한 상태에서도 기초 알고리즘의 재발명이 가능함을 입증하며, LLM의 창의적 추론 한계를 명확히 규명했습니다. 연구 결과는 LLM이 단계적 탐색을 통해 솔루션 공간을 탐색하는 데 탁월함을 보여주지만, 반직관적 도약을 요구하는 난도가 높은 알고리즘은 여전히 해결하기 어려움을 시사합니다. 이는 향후 LLM 기반의 자율적 과학 발견 시스템 설계와 강화학습을 활용한 추론 최적화 연구에 중요한 학술적 통찰을 제공합니다.

⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.

Review 의 다른글

이전글 [논문리뷰] ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics
현재글 : [논문리뷰] Can Large Language Models Reinvent Foundational Algorithms?
다음글 [논문리뷰] DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off