东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

一种新的基于N-gram模型的重复软件缺陷报告检测方法

ISSN号：1000-2758
期刊名称：西北工业大学学报
时间：0
页码：298-303
分类：TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西北工业大学计算机学院,陕西西安710072
相关基金：国家自然科学基金（60970070）资助
相关项目：面向黑盒测试检出的缺陷分类与预测研究

关键词：自然语言处理系统, 重复缺陷报告, N-gram方法, 文本相似度, natural language processing systems, duplicate defect report, N-gram method, N-gram similarity

中文摘要：

软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4 503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N-gram模型法与向量空间模型法相比,重复缺陷的查全率（Recall Rate）提高了25%~55%。

英文摘要：

Aim.The introduction of the full paper points out what we believe to be the shortcomings of existing papers in the open literature.Hence we propose a new and better method.Subsection 1.2 briefs the N-gram model.Section 2 explains our new and better method of detecting duplicate defect reports using N-gram method.The titles of subsections 2.1,2.2,2.3,2.4,2.5,2.7 are respectively tokenization,word stemming,synonym replacement,stop word removal,N-gram similarity calculation and duplicate defect report detection accuracy measurement;in particular,Formula（6） in subsection 2.7 is very important for calculating the recall rate of our method.In section 3,we select the N-parameter,the complete-sentence syntax and the summary information on software defect report with a small subset of Firefox defect repository and evaluate our method with a large subset of Firefox defect repository including 4503 defect reports.The experimental results,presented in Figs.2 and 3,show preliminarily that the recall rate of our method increases by 25% to 55% compared with that of the traditional Vector Space Model method in detecting duplicate defect reports.

同期刊论文项目

面向黑盒测试检出的缺陷分类与预测研究

期刊论文 22 会议论文 14

同项目期刊论文

基于Trace重放的文件系统性能分析

MXDR:一种基于关键字的XML多文档分布式检索方法

一种多维度存储文件系统的测试指标体系

基于负载的能耗预测与温度监控系统的设计与实现

XIOTR: A terse ranking of XIO for XML keyword search

基于消息传递机制的MapReduce图算法研究

云存储性能评测技术与方法研究

云存储性能评测技术研究

海量存储系统能耗评测模型的研究

RFID交叉读仲裁方法研究

基于标签序列的半结构化数据相似度度量

磁盘存储测试技术研究

面向MapReduce的非对称分片复制连接算法优化技术研究

一种图形化的软件缺陷描述语言

基于灰色关联分析法的软件缺陷类型预测

期刊信息

《西北工业大学学报》
中国科技核心期刊

主管单位:中华人民共和国工业和信息化部
主办单位:西北工业大学
主编：胡沛泉
地址：西安市友谊西路127号（西工大校园158号信箱）
邮编：710072
邮箱：xuebao@mwpu.edu.cn
电话：029-88495455

国际标准刊号：ISSN：1000-2758
国内统一刊号：ISSN：61-1070/T
邮发代号:52-182

获奖情况:

国内外数据库收录:
美国化学文摘（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:10173