位置:立项数据库 > 立项详情页
基于标记树的XML文档自动聚类和分类研究
  • 项目名称:基于标记树的XML文档自动聚类和分类研究
  • 项目类别:青年科学基金项目
  • 批准号:70803046
  • 申请代码:G031401
  • 项目来源:国家自然科学基金
  • 研究期限:2009-01-01-2011-12-31
  • 项目负责人:潘有能
  • 负责人职称:副教授
  • 依托单位:浙江大学
  • 批准年度:2008
中文摘要:

近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准。聚类和分类等数据挖掘技术在XML中的应用为网络信息资源的搜集、组织及检索利用提供良好的技术支持。本项目在利用WordNet对XML文档中的标记进行语义消歧的基础上,提出了一种新的基于语义标记树的XML文档相似度计算方法,并通过最近邻算法进行聚类,最后在用于XML检索研究的数据集上进行实验,证实其确实是一种比较有效的XML文档聚类方法。分类和聚类有所不同,本项目首先研究了XML文档和DTD标记树的生成方法,并对标记树中节点的概念进行了扩充,使之不但包括元素,同时也包括连接符,以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素,并提出层次权重和结构权重以衡量元素的层次和结构复杂程度,给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法,将其应用于XML文档自动分类中,并给出该算法的时间复杂度计算公式。从实验结果可以看出,该分类方法准确率较高。

结论摘要:

英文主题词XML; Data Mining; Tag Tree; Clustering; Classification


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 6
  • 0
  • 0
  • 0
  • 1
相关项目
期刊论文 14 会议论文 1 专利 4 著作 2
期刊论文 62 会议论文 79 著作 3
期刊论文 17 会议论文 13 专利 5
期刊论文 11 会议论文 11
潘有能的项目