东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于链路压缩树的网页相似度研究

ISSN号：1000-0135
期刊名称：《情报学报》
时间：0
分类：TP18[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
作者机构：[1]大连理工大学系统工程研究所,大连116023
相关基金：国家自然科学基金资助项目（70671016）.

关键词：网页结构, 链路相似度, 结构相似度, 链路压缩树, Web structure, path similarity, structural similarity, path pressed tree

中文摘要：

大多网页都是基于服务器端模板生成的，所以在同一个站点经常看到很多外观相同内容相似的网页。HTML是一种半结构化的标记语言，每个HTML网页都对应一个DOM树结构。网页的相似性表现结构上就是结构相似性。研究网页结构相似性的方法有很多，本文从DOM树中的链路结构的角度来研究不同网页间的相似性，并提出了基于链路压缩树的结构相似度度量模型。本文中的计算方法都用Python语言实现。通过实验，本文使用多种方法对不同网页间的相似度进行了计算和分析，实验数据表明，基于链路压缩树的结构相似度度量模型具有较好的适用性，其速度是传统方法不可比拟的。

英文摘要：

Most web pages are generated from templates on servers. As a result, many pages from the same site always look with the same appearance and the similar contents. HTML is a kind of semi-structured mark-up language, and each HTML page has a DOM tree structure. Similarity in structure between web pages is defined as structural similarity, and there are many methods of researching this similarity. From the perspective of D0M path structure, this paper has studied the similarity between two web pages, and proposed a new model of calculating structural similarity based on path pressed trees. All of algorithms in this paper are implemented by Python. We have calculated and analyzed the similarity between different web pages through experiment, which shows that our model of calculating structural similarity is of stronger applicability and the speed is unparalleled in the traditional method.

同期刊论文项目

人-机协同思维中隐性知识共享管理方法研究

期刊论文 31 会议论文 10

同项目期刊论文

基于决策树和协议分析的入侵检测研究

基于最近邻评价矩阵的混合协同过滤推荐算法

高维分类属性的子空间聚类算法

基于k最相似聚类的子空间聚类算法

Semi-automatic Construction of Ontology-based CBR System for Knowledge Integration

协同过滤的一种个性化推荐算法研究

贝叶斯反馈云模型的分析与设计

基于复杂网络与演化博弈的群体行为策略分析

集装箱航运网络拓扑特性研究

基于FFA的运费风险管理研究

全球航运网络鲁棒性和脆弱性研究

具有无标度特性的港航系统网络效应分析

Discovery of users' navigation time patterns based on hidden Markov model

基于本体的范例推理系统研究综述

复杂系统演化方程的重正化群解研究

基于N-gram的Web用户浏览模式分类算法研究

挖掘频繁波动的Web访问模式算法研究

一种OWL本体进化方法

一种从企业遗留智能系统学习OWL本体方法研究

作战模拟系统想定研究综述

Environmental Factors Influence on Mobile Learning Business

结构化范例库向OWL本体自动映射算法

Organizational Coordination int the Technology Based Learning Centers

Link prediction in a user-object network based on time-weighted resource allocation

基于信任因子的协同过滤推荐算法

协同过滤系统项目冷启动的混合推荐算法

持久偏爱的Web用户访问路径信息挖掘方法

Web使用模式挖掘系统的框架设计

开放式逢低买入中买家数量确定的投标决策

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778