位置:成果数据库 > 期刊 > 期刊详情页
基于K-Means和Apriori算法的多层特征提取方法
  • ISSN号:1000-1190
  • 期刊名称:华中师范大学学报(自然科学版)
  • 时间:2015.6.1
  • 页码:357-362
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]郑州轻工业学院计算机与通信工程学院,郑州450002
  • 相关基金:国家自然科学基金项目(61201447); 河南省科技攻关项目(122102210024;122300410287); 河南省高等学校青年骨干教师资助计划项目(2014GGJS-084); 河南省教育厅科学技术研究重点项目(13A520367); 郑州市科技计划项目(121PPTG362-12,131PPTGG411-8); 郑州轻工业学院校级青年骨干教师培养对象资助计划项目(XGGJS02)
  • 相关项目:云计算Hadoop框架中高效迭代机制的研究
中文摘要:

根据科技文献的结构特点,论文提出了一种四层挖掘模式,并结合K-means算法和Apriori算法,构建一个新的特征词提取方法——MultiLM-FE方法.该方法首先依据科技文献的结构将其分为4个层次,然后通过K-means聚类对前3层逐层实现特征词提取,最后再使用Aprori算法找出第4层的最大频繁项集,并作为第4层的特征词集合.该方法能够解决K-means算法不能自动确定最佳聚类初始点的问题,减少了聚类过程中信息损耗,这使得该方法能够在文献语料库中更加准确地找到特征词,较之以前的方法有很大提升,尤其是在科技文献方面更为适用.实验结果表明,该方法是可行有效的.

英文摘要:

This article proposed a four-mining model based on the structural characteris- tics of scientific literature, and combined K-means algorithm and Apriori algorithm to construct an new feature extraction method-Multil.M-FE Method. Firstly, scientific lit- erature was divided into four layers according to its structure. And then, it selected fea- tures progressively for the former three layers by K means clustering. Finally, it found out the maximum frequent itemsets of fourth layer by Aprori algorithm to act as a col- lection of features fourth layer. This method can solve the problem that the K-means clustering algorithm can't determine the most appropriate clustering starting point auto- matically, and reduces the loss of information in the clustering process, so it is possible to find features more accurately in the literature corpus. Experimental results showed that this method was feasible and effective and had greatly improved especially in terms of the scientific literature when compared with the previous method.

同期刊论文项目
期刊论文 44 会议论文 6 获奖 8
同项目期刊论文
期刊信息
  • 《华中师范大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:教育部
  • 主办单位:华中师范大学
  • 主编:范军
  • 地址:武昌桂子山
  • 邮编:430079
  • 邮箱:inbox@mail.ccnu.edu.cn
  • 电话:027-67868127
  • 国际标准刊号:ISSN:1000-1190
  • 国内统一刊号:ISSN:42-1178/N
  • 邮发代号:38-39
  • 获奖情况:
  • 全国综合性科学技术核心期刊,中国科学引文数据库来源期刊,中国科技论文统计源期刊,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:8526