位置:成果数据库 > 期刊 > 期刊详情页
基于Hadoop的Web文本分类系统设计研究
  • ISSN号:0455-2059
  • 期刊名称:《兰州大学学报:自然科学版》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山西大学商务学院信息学院,太原030031
  • 相关基金:国家自然科学基金项目(61202311);山西省高等学校科技创新项目(2014142);全国教育信息技术研究十二五规划课题项目(146241697)
作者: 赵文娟[1]
中文摘要:

针对传统Web文本分类方法无法解决大规模分类问题,在深入分析当前主流并行计算平台Hadoop的基础上,提出基于Hadoop的Web文本分类系统,该系统主要包括文本预处理、向量表示、文本分类、结果评价等模块。真实数据集上的比较实验表明所建系统的有效性。

英文摘要:

In order to solve the poor performance problem of traditional web text classification approaches in dealing with large-scale data, a web text classification system based on Hadoop was designed. The constructed system mainly includes text preprocess, vector representation, classification and result evaluation. Comparative experiments on the authentic dataset verified the effectiveness of the constructed system.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《兰州大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:教育部
  • 主办单位:兰州大学
  • 主编:涂永强
  • 地址:兰州市天水南路222号
  • 邮编:730000
  • 邮箱:jns@lzu.edu.cn
  • 电话:0931-8912707
  • 国际标准刊号:ISSN:0455-2059
  • 国内统一刊号:ISSN:62-1075/N
  • 邮发代号:54-3
  • 获奖情况:
  • 全国自然科学类核心期刊,甘肃省优秀科技期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:12892