[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.#Review#Autonomous Bug Discovery#Large Language Models#Game Benchmark#Quality Assurance#Multi-agent System#Software Engineering2026년 4월 7일댓글 수 로딩 중
[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.#Review#Reproducibility#Paper-Code Discrepancy#Code Alignment#LLM Evaluation#Synthetic Data Generation#Quality Assurance#Scientific Automation2026년 1월 20일댓글 수 로딩 중