#HOL Light

1개의 포스트

[논문리뷰] s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs

본 논문은 LLM이 산업용 cryptographic assembly 코드를 검증할 수 있는지를 평가하기 위해, AWS의 s2n-bignum 라이브러리에서 추출한 형식 명세와 HOL Light 증명 스크립트 생성 과제를 묶은 실용 벤치마크를 제안합니다.

#Review #Formal Verification #Theorem Proving #HOL Light #LLM for Code #Cryptographic Assembly #Neurosymbolic AI

2026년 3월 22일