[논문리뷰] No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages
링크: 논문 PDF로 바로 열기
메타데이터
저자: Alessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota
1. Key Terms & Definitions (핵심 용어 및 정의)
- No-Resource Languages: LLM의 학습 데이터(Pre-training corpus)에 거의 포함되지 않아 상용 도구의 지원을 받지 못하는 프로그래밍 언어(예: Gleam, MoonBit)를 지칭함.
- Pass@1: 모델이 단 한 번의 시도로 테스트 케이스를 모두 통과하는 코드를 생성할 확률을 측정하는 핵심 Metric.
- Instruction-Following: LLM이 사용자의 지시사항을 정확히 이해하고 그에 따라 작업을 수행하는 능력.
- Weight Diff Transfer: 모델 간의 가중치 차이를 계산하여 한 모델의 특정 능력(예: Instruction-following)을 다른 모델로 전이시키는 기술.
2. Motivation & Problem Statement (연구 배경 및 문제 정의)
본 연구는 LLM의 코드 생성 능력이 학습 데이터가 풍부한 High-Resource 언어에 편중되어, 신생 기업에서 사용하는 No-Resource 언어에 대한 지원이 전무하다는 점을 해결하고자 한다. 기존 연구들은 Low-Resource 언어까지는 다루었으나, 학습 데이터가 극도로 부족한 No-Resource 언어에 대한 벤치마크 및 체계적인 평가 도구는 부재한 실정이다. 이에 따라 저자들은 Gleam과 MoonBit을 활용하여 신규 벤치마크를 구축하고, 기업들이 비용 효율적으로 언어별 특화 모델을 배포할 수 있는 방안을 탐색한다.
3. Method & Key Results (제안 방법론 및 핵심 결과)
저자들은 HumanEval, MBPP, 그리고 McEval-Hard를 각 언어별로 번역한 3종의 No-Resource 벤치마크를 구축하여 LLM의 성능을 평가하였다. 제안하는 방법론은 Base 모델에 대한 Further Pre-training으로 해당 언어 지식을 학습시킨 뒤, 별도로 가중치 차이(Weight Diff)를 계산하여 Instruction 모델의 지시 수행 능력을 이식하는 방식이다. 실험 결과, Zero-shot 설정에서 No-Resource 언어의 Pass@1 성능은 1% 미만에 머물렀으나, 제안 기법 적용 시 McEval-Hard 벤치마크에서 Pass@1이 25% 이상으로 크게 향상되었다. 특히, 기존 모델들이 High-Resource 언어에서 80% 이상의 성능을 보이는 것과 대조적으로, 본 연구는 No-Resource 언어에서도 상대적으로 저렴한 비용으로 실무적인 수준의 모델 배포가 가능함을 입증하였다 [Table IV].
4. Conclusion & Impact (결론 및 시사점)
본 연구는 No-Resource 언어에 대한 코드 생성 벤치마크를 최초로 체계화하고, 가중치 전이 기법을 통해 효율적인 특화 모델 구축 가능성을 제시하였다. 제안된 방법론은 기업이 자체적인 도메인 특화 언어 모델을 구축할 때 발생하는 컴퓨팅 비용 문제를 해결하는 실무적인 가이드라인을 제공한다. 본 결과는 향후 프로그래밍 언어의 생태계가 확장됨에 따라 LLM의 범용성과 확장성을 극대화하는 중요한 토대가 될 것으로 기대된다.
Part 2: 중요 Figure 정보

Table IV — 언어별/모델별 Pass@1 성능 비교
⚠️ 알림: 이 리뷰는 AI로 작성되었습니다.
관련 포스트
- [논문리뷰] Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
- [논문리뷰] ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions
- [논문리뷰] P3D-Bench: Benchmarking MLLMs for Parametric 3D Generation and Structural Reasoning
- [논문리뷰] Latent Reasoning with Normalizing Flows
- [논문리뷰] LongAttnComp: Cross-Family Context Compression for Long-Context Reasoning
Review 의 다른글
- 이전글 [논문리뷰] Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages
- 현재글 : [논문리뷰] No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages
- 다음글 [논문리뷰] Playful Agentic Robot Learning
댓글