位置:成果数据库 > 期刊 > 期刊详情页
网页结构树相似度计算
  • ISSN号:1001-7011
  • 期刊名称:《黑龙江大学自然科学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家自然科学基金项目资助项目(60736044)
中文摘要:

提出了一种针对网页结构树的相似度计算方法,首先把网页标签结构表示成树,然后通过动态规划算法,使两棵树在每一层上最相似的儿子节点继续进行比较,而那些没有找到匹配节点的儿子节点则产生距离,累加这些距离作为两棵树之间的距离,以此来衡量两个网页之间的相似程度。实验证明本方法可以正确区分同类网页和不同类网页。

英文摘要:

A similarity calculation method for tree-structured web pages is proposed. The structure of web page labels are firstly transformed into tree, and then make the most similar son nodes between each layer of the two trees continue comparing by a dynamic programming algorithm, the nodes which miss match are regarded the part of distance, the total distance between two trees are computed by adding in all the parts of distance through which to calculate their similarity degree. The experimental result shows that this method can effectively and precisely distinguish different web page.

同期刊论文项目
期刊论文 117 会议论文 76 专利 12 著作 3
同项目期刊论文
期刊信息
  • 《黑龙江大学自然科学学报》
  • 北大核心期刊(2011版)
  • 主管单位:黑龙江省教育厅
  • 主办单位:黑龙江大学
  • 主编:霍丽华
  • 地址:哈尔滨市学府路74号
  • 邮编:150080
  • 邮箱:hdxb@vip.sohu.com
  • 电话:0451-86608818
  • 国际标准刊号:ISSN:1001-7011
  • 国内统一刊号:ISSN:23-1181/N
  • 邮发代号:14-114
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:4204