[논문리뷰] s2n-bignum-bench: A practical benchmark for evaluating low-level code reasoning of LLMs본 논문은 LLM이 산업용 cryptographic assembly 코드를 검증할 수 있는지를 평가하기 위해, AWS의 s2n-bignum 라이브러리에서 추출한 형식 명세와 HOL Light 증명 스크립트 생성 과제를 묶은 실용 벤치마크를 제안합니다.#Review#Formal Verification#Theorem Proving#HOL Light#LLM for Code#Cryptographic Assembly#Neurosymbolic AI2026년 3월 22일댓글 수 로딩 중