位置:成果数据库 > 期刊 > 期刊详情页
基于分组指纹的细粒度相似性检测系统
  • ISSN号:1672-9722
  • 期刊名称:《计算机与数字工程》
  • 时间:0
  • 分类:TP391.3[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]湖南工业大学计算机与通信学院,湖南株洲412007, [2]中南大学信息科学与工程学院,湖南长沙410083
  • 相关基金:国家自然科学基金资助项目(61350011,61402165); 湖南省自然科学面上基金资助项目(14JJ2115,2015JJ3058); 湖南省教育厅科技研究基金资助项目(14C0325); 湖南工业大学自然科学研究基金资助项目(2014HZX17)
中文摘要:

在文档相似性检测中,粗粒度会降低准确度,粒度过细又会大幅增加计算时间。针对基金项目相似性检测,在b位Minwise Hash算法的基础上,提出了一种细粒度文档相似性快速检测方法。先对文档进行预处理,提取文档正文,并生成分组指纹特征,再构建细粒度的分组指纹索引结构,利用海明距离来计算文档之间的相似性,以XML文档形式存储并显示相似信息。通过系统的实现,验证了该方法的有效性,且检索效率有所提高。

英文摘要:

In document similarity detection, coarse grain will reduce the accuracy and too small particle size will increase the computation time. Proposes a quick document similarity detection method based on b-bit Minwise Hash.Firstly extracts the document text to generate a grouping fingerprint features; Then establishes the index structure of finegrained grouping fingerprint; Finally computes the resemblance of document part by Hamming distance, and stores and displays the evidence of similarity by XML document format. Through system practice, verifies the effectiveness of the method and increases the efficiency of retrieval.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机与数字工程》
  • 主管单位:中国船舶重工集团公司
  • 主办单位:中船重工集团公司七院第七0九研究所
  • 主编:王小非
  • 地址:武昌74223信箱
  • 邮编:430074
  • 邮箱:jssg@chinajournal.net.cn
  • 电话:027-87534308 87534205
  • 国际标准刊号:ISSN:1672-9722
  • 国内统一刊号:ISSN:42-1372/TP
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:13630