位置:成果数据库 > 期刊 > 期刊详情页
基于词频统计规律的文本数据预处理方法
  • ISSN号:1002-137X
  • 期刊名称:《计算机科学》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]河北师范大学数学与信息科学学院,石家庄050024, [2]河北师范大学河北省计算数学与应用数学重点实验室,石家庄050024
  • 相关基金:国家自然科学基金项目(71271067); 国家社科基金重大项目(13&ZD091); 河北省高等学校科学技术研究项目(QN2014196); 河北师范大学硕士基金(xj2015003)资助
中文摘要:

在大数据时代,文本挖掘面临特征的"高维-稀疏"问题,海量文本词汇与稀少关键特征间的矛盾导致了高时空复杂度和低效率等问题,严重制约了文本挖掘效率,因此在文本挖掘前进行有效的数据预处理至关重要。传统文本挖掘算法在数据预处理阶段只进行分词和去停用词操作。为提高性能,提出基于词频统计规律的文本数据预处理方法。首先,基于齐普夫定律和最大值法推导同频词数表达式;然后,基于同频词数表达式探究各频次词语在文中的分布规律,结果表明词频为1和2的词语与文档的关联度较低,但比重高达2/3;最后,基于词频统计规律进行数据预处理,在预处理阶段去除低频词,减小特征维度。在公共数据集Reuters-21578和20-Newsgroups上进行的实验的结果表明,各频次词语的分布规律是正确的,基于词频统计规律的文本数据预处理方法在分类准确率、精确率、召回率以及F1度量值方面均有提升,运行时间明显降低,文本挖掘效率得到显著提高。

英文摘要:

In age of big data,it is a severe problem that feature terms are faced with"high-dimension and sparse"challenge in text mining.Contradiction between enormous scale of terms and scarce of features will cause high-time-space complexity and poor efficiency,and restricts the efficiency of text mining seriously.Thus,it is crucial to preprocess data before mining text.Terms-dividing and stop-words-deleting are operated merely in data preprocessing of traditional text mining algorithms.In order to improve process of data preprocessing,data preprocessing algorithm based on term frequency statistics rules(DPTFSR)was proposed.To begin with,expression about number of terms with identical frequency is deduced based on Zif's Law and rule of maximum area.What's more,regularities of distribution based on terms with identical frequency is explored.It is discovered that proportion of low-frequency terms in documents reach up to 2/3,but there is little relevancy between them.Lastly,data is preprocessed based on terms frequency statistics rules.Low-frequency terms are deleted,and features dimension is decreased greatly.Correctness of term frequency statistics rules and validity of algorithm DPTFSR are verified on data sets from Reuters-21578 and 20-Newgroups.Experimental results show that accuracy,precision,recall and F1 measure are increased,and running time is shortened obviously.Thus,efficiency of text mining is significantly enhanced.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机科学》
  • 北大核心期刊(2011版)
  • 主管单位:重庆西南信息有限公司(原科技部西南信息中心)
  • 主办单位:重庆西南信息有限公司(原科技部西南信息中心)
  • 主编:陈国良
  • 地址:重庆市渝北区洪湖西路18号
  • 邮编:401121
  • 邮箱:jsjkx12@163.com
  • 电话:023-63500828
  • 国际标准刊号:ISSN:1002-137X
  • 国内统一刊号:ISSN:50-1075/TP
  • 邮发代号:78-68
  • 获奖情况:
  • 2001年重庆市优秀期刊,2004年第三届重庆市优秀科技期刊,2005年重庆市优秀期刊编辑部,2010年第六届重庆市期刊综合质量考核"十佳科技期刊",2012年重庆市出版专项资金报刊资助项目(重庆市新...,2013年重庆市出版专项资金重点学术期刊资助项目(...,2014年重庆市出版专项资金期刊资助项目(重庆市文...,2015年"中国国际影响力优秀学术期刊"
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国乌利希期刊指南,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:41227