[논문리뷰] GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers본 논문은 현대 소프트웨어 개발에서 자동화된 코드 생성 및 수정 기술은 크게 발전했으나, 정작 제품의 품질을 보장하는 핵심 단계인 '자율적 버그 탐색' 연구는 여전히 미진하다는 문제의식에서 출발한다.#Review#Autonomous Bug Discovery#Large Language Models#Game Benchmark#Quality Assurance#Multi-agent System#Software Engineering2026년 4월 7일댓글 수 로딩 중