东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于概念和语义网络的近似网页检测算法

ISSN号：1000-9825
期刊名称：《软件学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]北京理工大学计算机科学技术学院,北京100081, [2]北京航天飞行控制中心,北京100094
相关基金：国家自然科学基金（60803050,60705022）;新世纪优秀人才计划（NCET-06-0161）

关键词：网页去重算法, 小世界网络, 近似网页, 均方差, duplicate removal algorithm, small world network, near duplicated Web page, standard deviation

中文摘要：

在搜索引擎的检索结果页面中，用户经常会得到内容近似的网页．为了提高检索整体性能和用户满意度，提出了一种基于概念和语义网络的近似网页检测算法DWDCS（near-duplicate webpages detection based on concept and semantic network）．改进了经典基于小世界理论提取文档关键词的算法．首先对文档概念进行抽取和归并，不但解决了“表达差异”问题，而且有效降低了语义网络的复杂度；从网络结构的几何特征对其进行分析，同时利用网页的语法和结构信息构建特征向量进行文档相似度的计算，由于无须使用语料库，使得算法天生具有领域无关的优点．实验结果表明，与经典的网页去重算法（J-Match）和单纯依赖词汇共现小世界模型的算法相比，DWDCS具有很好的抵抗噪声的能力，在大规模实验中获得了准确率〉90％和召回率〉85％的良好测试结果．良好的时空间复杂度及算法性能不依赖于语料库的优点，使其在大规模网页去重实际应用中获得了良好的效果．

英文摘要：

Reprinting websites and blogs produces a great deal redundant WebPages. To improve search efficiency and user satisfaction, the near-Duplicate WebPages Detection based on Concept and Semantic network （DWDCS） is proposed. In the course of developing a near-duplicate detection system for a multi-billion pages repository, this paper makes two research contributions. First, the key concept is extracted, instead of the keyphrase, to build Small Word Network （SWN）. This not only reduces the complexity of the semantic network, but also resolves the ＂expression difference＂ problem. Second, this paper considers both syntactic and semantic information to present and compute the documents＇ similarities. In a large-scale test, experimental results demonstrate that this approach outperforms that of both I-Match and keyphrase extraction algorithms based on SWN. Many advantages such as linear time and space complexity, without using a corpus, make the algorithm valuable in actual practice.

同期刊论文项目

跨语言文本自动分类关键技术研究

期刊论文 5 会议论文 14 专利 2

面向汉语自由文本的领域本体学习的理论和方法研究

期刊论文 9 会议论文 14 专利 1

同项目期刊论文

An Aggressive Algorithm for Multiple String Matching

基于节点簇的P2P随机漫步搜索

基于ARMA-TS-GARCH有限混合模型的交通数据分析

网页自动分类不确定性问题的贝叶斯网络解法

Nonlinear Dimensionality Reduction with Relative Distance Comparison

基于概念和小世界网络的近似网页去重

概念空间中上下位关系的意义识别研究

基于BP神经网络的信誉欺骗检测模型

期刊信息

《软件学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国科学院软件研究所中国计算机学会
主编：赵琛
地址：北京8718信箱中国科学院软件研究所
邮编：100190
邮箱：jos@iscas.ac.cn
电话：010-62562563

国际标准刊号：ISSN：1000-9825
国内统一刊号：ISSN：11-2560/TP
邮发代号:82-367

获奖情况:
2001年入选中国期刊方阵“双百期刊”,2000年荣获中国科学院优秀科技期刊一等奖

国内外数据库收录:
俄罗斯文摘杂志,美国数学评论（网络版）,波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:54609