#코드 벤치마크

1개의 포스트

[논문리뷰] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators

기존 코드 생성 벤치마크의 한계(수동 어노테이션 의존, Python 중심, 난이도 및 다양성 부족)를 해결하고, LLM의 코드 생성 능력을 포괄적으로 평가하기 위해 높은 난이도를 가진 다국어 코드 생성 데이터셋을 수동 어노테이션 없이 자동으로 생성하는 방법론 을 개발하는 것입니다.

#Review #코드 생성 #대규모 언어 모델 #코드 벤치마크 #다국어 프로그래밍 #자동화된 데이터 생성 #샌드박스 평가 #멀티모달 AI

2025년 8월 13일