#Quality Assurance

2개의 포스트

[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.

#Review #Autonomous Bug Discovery #Large Language Models #Game Benchmark #Quality Assurance #Multi-agent System #Software Engineering

2026년 4월 7일

[논문리뷰] SciCoQA: Quality Assurance for Scientific Paper--Code Alignment

이 논문은 AI 및 과학 분야의 '재현성 위기'에 대응하여, 과학 논문과 그 코드 구현 간의 불일치(discrepancy) 를 자동으로 감지하는 시스템의 필요성을 다룹니다.

#Review #Reproducibility #Paper-Code Discrepancy #Code Alignment #LLM Evaluation #Synthetic Data Generation #Quality Assurance #Scientific Automation

2026년 1월 20일