[논문리뷰] PRBench: End-to-end Paper Reproduction in Physics Research최근 LLM 기반 에이전트가 과학적 추론 및 코드 생성 분야에서 발전하고 있으나, 실제 과학 논문의 복잡한 계산 과정을 처음부터 끝까지 신뢰성 있게 재현할 수 있는지에 대해서는 검증되지 않았습니다.#Review#Scientific Reproduction#Agentified Assessment#Physics Benchmark#LLM#Sandboxed Execution2026년 3월 30일댓글 수 로딩 중