东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

网页去重方法研究

ISSN号：1002-8331
期刊名称：《计算机工程与应用》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]山西大学计算机与信息技术学院,太原030006, [2]计算智能与中文信息处理省部共建教育部重点实验室,太原030006
相关基金：国家自然科学基金（the National Natural Science Foundation of China under Grant No.60775041）.致谢感谢哈工大信息检索研究室提供的《哈工大信息检索研究室同义词词林扩展版》的1.0版本（HIT IR-Lab Tongyici Cilin（Extended））.

关键词：组块, 主题句向量, 网页去重, chunking, topic sentence vector, elimination of similar web pages

中文摘要：

搜索引擎返回的重复网页不但浪费了存储资源，而且加重了用户浏览的负担。针对网页重复的特征，提出了一种基于语义的去重方法。该方法通过句子在文本中的位置和组块的重要度，提取出网页正文的主题句向量，然后对主题句向量进行语义相似度计算，把重复的网页去除。实验证明，该方法对全文重复和部分重复的网页都能进行较准确的检测。

英文摘要：

Similar web pages that search engine returns not only waste storage resources but also increase the burden on web users.In this paper,a method based on semantic to detect similar web pages is proposed.This method picks up topic sentence vector of web pages through location of the sentence in the text and importance of chunking.Then it detects the similar web pages by calculating semantic similar degree of topic sentence vector.The experiment results show that not only completely similar web pages are detected accurately but also partly similar web pages are detected exactly.

同期刊论文项目

基于中文文本的计算机中介通信中欺骗检测研究

期刊论文 5 会议论文 2 专利 1 著作 1

同项目期刊论文

面向中文文本的欺骗行为检测方法研究

Research on Chinese proper nouns recognition based on pattern matching

基于最大熵方法进行动词搭配的自动标注

基于多结构特征的垃圾博客识别研究

期刊信息

《计算机工程与应用》
北大核心期刊（2014版）

主管单位:中国电子科技集团公司
主办单位:华北计算技术研究所
主编：怀进鹏
地址：北京市海淀区北四环中路211号北京619信箱26分箱
邮编：100083
邮箱：ceaj@vip.163.com
电话：

国际标准刊号：ISSN：1002-8331
国内统一刊号：ISSN：11-2127/TP
邮发代号:82-605

获奖情况:
1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:97887