位置:成果数据库 > 期刊 > 期刊详情页
一种新的基于对称性的字符串相似性处理算法
  • ISSN号:1007-791X
  • 期刊名称:《燕山大学学报》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]燕山大学信息科学与工程学院,河北秦皇岛066004, [2]燕山大学经济管理学院,河北秦皇岛066004
  • 相关基金:基金项目:国家自然科学基金资助项目(61073060,61040023);河北省重点基础研究项目(10963527D);河北省科学技术研究与发展计划科技支撑计划项目(11213578)
中文摘要:

对于给定的两个字符串集合,基于相似度的连接操作可用于从中找出相似的字符串对,该操作是数据清洗、数据集成以及协同过滤等应用中的核心操作之一,其执行效率直接影响系统的整体性能。本文提出一种高效计算字符串集合间连接操作的算法Trie-TSS,该方法基于trie树进行处理,利用对称性来减少冗余计算。提出一种旨在减少冗余编辑距离计算操作的优化技术来进一步提升系统性能。最后通过实验验证了Trie-TSS算法的高效性。

英文摘要:

For two given sets of strings, join operation is used to find similar string pairs based on string similarity. It is one of the essential operations in many applications, such as data integration, data cleaning, and collaborative filtering. A new trie-based al- gorithm, namely Trie-TSS, which uses the symmetry of edit distance to reduce redundant computation, is proposed. Then a new pruning technique is suggested to further reduce the unnecessary computation so as to improve the overall performance. The ex-perimental results show the efficiency of our method according to various metrics.

同期刊论文项目
期刊论文 13 会议论文 4
同项目期刊论文
期刊信息
  • 《燕山大学学报》
  • 北大核心期刊(2014版)
  • 主管单位:河北省教育厅
  • 主办单位:燕山大学
  • 主编:张福成
  • 地址:河北省秦皇岛市燕山大学期刊社
  • 邮编:066004
  • 邮箱:xuebao@ysu.edu.cn
  • 电话:0335-8057043
  • 国际标准刊号:ISSN:1007-791X
  • 国内统一刊号:ISSN:13-1219/N
  • 邮发代号:18-73
  • 获奖情况:
  • 2009年获2004-2008年度河北省教育系统优秀期刊奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),中国中国科技核心期刊,中国北大核心期刊(2014版)
  • 被引量:3409