位置:成果数据库 > 期刊 > 期刊详情页
基于闭合频繁Induced子树的GML文档结构聚类
  • ISSN号:1002-8331
  • 期刊名称:《计算机工程与应用》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京师范大学计算机科学与技术学院,江苏南京210097
  • 相关基金:国家自然科学基金(40771163)资助项目.
中文摘要:

提出了一种GML文档结构聚类新算法MCF_CLU.与其它相关算法不同,该算法基于闭合频繁Induced子树进行聚类,聚类过程中不需树之间的两两相似度比较,而是挖掘GML文档数据库的闭合频繁Induced子树,为每个文档求一个闭合频繁Induced子树作为该文档的代表树,将具有相同代表树的文档聚为一类.聚类过程中自动生成簇的个数,为每个簇形成聚类描述,而且能够发现孤立点.实验结果表明算法MCF_CLU是有效的,且性能优于其它同类算法.

英文摘要:

This paper presents an algorithm MCF _ CLU for clustering GML documents by structure. Different from other algorithms, it goes on clustering based on the closed frequent induced subtrees, and doesnt need comparing the similarity between trees. The closed frequent induced subtrees of all the GML documents are computed. The representative closed frequent induced subtree of every document is obtained. The documents which have the same representative tree are regarded as a cluster. During the clustering process, not only the number of clusters can be obtained automatically, but the description of the clusters can be achieved. By the way, the isolated points of the documents can be found. The experimental results show that MCF _ CLU is effective, and that its performance is superior to those of other GML clustering algorithms.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与应用》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华北计算技术研究所
  • 主编:怀进鹏
  • 地址:北京市海淀区北四环中路211号北京619信箱26分箱
  • 邮编:100083
  • 邮箱:ceaj@vip.163.com
  • 电话:
  • 国际标准刊号:ISSN:1002-8331
  • 国内统一刊号:ISSN:11-2127/TP
  • 邮发代号:82-605
  • 获奖情况:
  • 1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:97887