[논문리뷰] DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules본 연구는 산업 설비의 고장 감지 이후, 엔지니어가 수행해야 할 구체적인 정비 단계(maintenance steps)를 추천하는 데 있어 LLM의 역량을 체계적으로 진단하고자 한다.#Review#DiagnosticIQ#Industrial Maintenance#LLM Benchmark#Symbolic Rules#MCQA#Fault Detection#Action Recommendation2026년 5월 17일댓글 수 로딩 중
[논문리뷰] StatEval: A Comprehensive Benchmark for Large Language Models in Statistics본 논문은 수학적 및 논리적 추론에 비해 통계 분야 에서 벤치마킹 노력이 부족하다는 점을 지적하며, 이 간극을 해소하고자 합니다. 통계학 전반의 깊이와 난이도를 포괄하는 최초의 포괄적 벤치마크인 StatEval 을 도입하여 LLM의 통계적 추론 능력과 이론적 증명 역량을 엄격하게 평가하는 것을 목표로 합니다.#Review#Statistical Reasoning#LLM Benchmark#Statistics Education#Proof Verification#Multi-agent Pipeline#Automated Extraction#Evaluation Framework2025년 10월 13일댓글 수 로딩 중