[논문리뷰] AutoCodeBench: Large Language Models are Automatic Code Benchmark Generators기존 코드 생성 벤치마크의 한계(수동 어노테이션 의존, Python 중심, 난이도 및 다양성 부족)를 해결하고, LLM의 코드 생성 능력을 포괄적으로 평가하기 위해 높은 난이도를 가진 다국어 코드 생성 데이터셋을 수동 어노테이션 없이 자동으로 생성하는 방법론 을 개발하는 것입니다.#Review#코드 생성#대규모 언어 모델#코드 벤치마크#다국어 프로그래밍#자동화된 데이터 생성#샌드박스 평가#멀티모달 AI2025년 8월 13일댓글 수 로딩 중