位置:成果数据库 > 期刊 > 期刊详情页
基于Hadoop分布式平台的Web文本关键词提取方案
  • ISSN号:1000-5900
  • 期刊名称:《湘潭大学自然科学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南昌理工学院计算机信息工程系,江西南昌330044, [2]华南理工大学土木与交通学院,广东广州510641
  • 相关基金:国家自然科学基金项目(61203164,61174184)
中文摘要:

针对海量Web文本的关键词提取问题,提出一种基于Hadoop分布式计算平台的关键词提取方案.首先,配置Hadoop平台,使其能够支持自然语言处理过程;然后,使用GATE工具对Web文本进行词句分割、词性标注和注释规则操作,得到候选关键词集;最后,利用单词位置和跨度重要性因子对传统TF-IDF算法进行加权,从而计算候选关键词与文档之间的相关性,最终获得该文档的关键词以标注文档属性.实验结果表明,提出的分布式关键词提取方案能够快速准确地提取Web文档的关键词.

英文摘要:

For the issues that the keyword extraction of massive Web text, a web text keyword extractionscheme based on the Hadoop distributed platform is proposed. F irst, The Hadoop platform is configured tosupport natural language processing. Then, the GATE tool is used to perform words segmentation, part ofspeech tagging and annotation rules for Web text, and get a set of candidate keywords. F inally, the TF-IDFalgorithm which weighted by the word position and span factor is used to calculate the correlation betweencandidate keywords and documents, and obtain the document keywords to indicate document properties.Experimental results show that the distributed keyword extraction system can quickly and accurately extractthe key words of Web documents.

同期刊论文项目
期刊论文 76 会议论文 6 获奖 4 著作 1
同项目期刊论文
期刊信息
  • 《湘潭大学自然科学学报》
  • 北大核心期刊(2011版)
  • 主管单位:湖南省教育厅
  • 主办单位:湘潭大学
  • 主编:黄云清
  • 地址:湖南湘潭市
  • 邮编:411105
  • 邮箱:jxtus@xtu.edu.cn
  • 电话:0731-58292143
  • 国际标准刊号:ISSN:1000-5900
  • 国内统一刊号:ISSN:43-1066/N
  • 邮发代号:42-33
  • 获奖情况:
  • 全国优秀科技期刊,湖南省一级期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:4425