位置:成果数据库 > 期刊 > 期刊详情页
基于分区索引的集合相似连接
  • ISSN号:1008-973X
  • 期刊名称:《浙江大学学报:工学版》
  • 时间:0
  • 分类:TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]浙江大学计算机科学与技术系,浙江杭州310027
  • 相关基金:国家自然科学基金资助项目(60803003 60970124)
中文摘要:

针对传统的索引和过滤算法处理在线相似连接时的不足,提出新的索引方法和过滤算法.在采用倒排索引的基础上,将索引按照位置和长度的相关信息进行划分,以减少查询空间,加强倒排索引的执行效率.此外,设计加权签名过滤算法,用来估计2个集合交的长度的上限,提高过滤的效率.集合的相似连接通常应用于过滤-验证的工作框架里,主要采用2个步骤:先产生候选结果集合;再对候选集合进行验证.通过对真实数据集的实验,结果表明,该过滤算法可以和其他过滤算法一起协同应用于过滤-验证的工作框架里,对数据进行在线相似连接处理,同时在计算效率上也有显著的提升.

英文摘要:

To address the deficiency of similarity join online when using traditional indexing and filtering algorithm,we proposed several novel filtering approaches by improving the inverted based and signature based schemes.Enhancing the inverted index to reduce the search spaces,which partition the index according to the information of item's position and the record's length.In addition,we designed a novel weighted signature filtering scheme,where the upper bound of the overlap between two sets can be estimated to improve the effectiveness of filtering.Typically,the processing of set similarity join often adopts the filtering-refinement framework,which generates candidates by some filtering schemes and then produces the final results by refining the candidates.The proposed schemes can be seamlessly integrated into the filtering-refinement framework with other filtering schemes to process set similarity join online.Extensive experiments are conducted using real datasets.The experiments results show the efficiency of the proposed schemes.

同期刊论文项目
期刊论文 13 会议论文 6 专利 4
同项目期刊论文
期刊信息
  • 《浙江大学学报:工学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:浙江大学
  • 主编:岑可法
  • 地址:杭州市浙大路38号
  • 邮编:310027
  • 邮箱:xbgkb@zju.edu.cn
  • 电话:0571-87952273
  • 国际标准刊号:ISSN:1008-973X
  • 国内统一刊号:ISSN:33-1245/T
  • 邮发代号:32-40
  • 获奖情况:
  • 2000年获浙江省科技期刊质量评比二等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21198