位置:成果数据库 > 期刊 > 期刊详情页
基于关键词提取的娱乐新闻文档去重算法
  • ISSN号:1001-6600
  • 期刊名称:《广西师范大学学报:自然科学版》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]北京石油化工学院计算机系,北京102617
  • 相关基金:国家部委预研项目(10405033);北京市教育委员会资助项目(KM200610017007)
中文摘要:

去除内容相同或相近的新闻是提高搜索引擎的关键技术之一。提出一种基于关键词提取的新闻去重算法,通过以标题为种子点构建词汇链的方法,能够找到对主题贡献大的非高频词,从而抽取出完整文档关键词集合,该方法能够基于小规模语料库识别新词;为了提高网页去重速度和质量,基于关键词建立去重倒排文档。实验结果显示,该方法与传统方法相比排斥错误率降低了5%,去重时间缩短了20%-30%。

英文摘要:

Weeding out duplicated news is an important technique of search engine. A new algorithm to weed duplicated news is proposed using,the keyword extraction. The algorithm uses title as seeds to build lexical chain,can obtain integrated keywords set by screening out important but low occurrence words ,and recognizes unknown words by small scale corpus. In order to improve the speed and quality of weeding,the invert document is established by screened keywords. The experimental result shows that exclusive error rate of this algorithm is lower 5 % than that of classical algorithms ,and the time of weeding duplicated news drops 20-30%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《广西师范大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:广西师范大学
  • 主办单位:广西师范大学
  • 主编:苏桂发
  • 地址:桂林市三里店育才路15号
  • 邮编:541004
  • 邮箱:gxsdzkb@mailbox.gxnu.edu.cn
  • 电话:0773-5848958
  • 国际标准刊号:ISSN:1001-6600
  • 国内统一刊号:ISSN:45-1067/N
  • 邮发代号:48-54
  • 获奖情况:
  • 1994年,获广西优秀期刊三等奖,1995年,获广西高校理科学报B类一等奖,1996年,获广西第三届优秀报刊二等奖,1999年,获广西首届高校优秀学报二等奖,2001年,被评为第四届广西优秀科技期刊,2002年,获第二届广西高校优秀学报二等奖,2002年,入选中国期刊方阵“双效”期刊,2004年,获全国高校优秀科技期刊一等奖,2005年,获第五届“广西十佳自然科学期刊”称号,2007年,获第六届“广西十佳自然科学期刊”称号,2008年,被评为全国高校科技期刊先进集体
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国农业与生物科学研究中心文摘,波兰哥白尼索引,德国数学文摘,美国剑桥科学文摘,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5888