基于标记树的XML文档自动聚类和分类研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于标记树的XML文档自动聚类和分类研究

项目名称：基于标记树的XML文档自动聚类和分类研究
项目类别：青年科学基金项目
批准号：70803046
申请代码：G031401
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：潘有能
负责人职称：副教授
依托单位：浙江大学
批准年度：2008

中文摘要：

近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点，逐渐成为了互联网数据表示和数据交换的标准。聚类和分类等数据挖掘技术在XML中的应用为网络信息资源的搜集、组织及检索利用提供良好的技术支持。本项目在利用WordNet对XML文档中的标记进行语义消歧的基础上，提出了一种新的基于语义标记树的XML文档相似度计算方法，并通过最近邻算法进行聚类，最后在用于XML检索研究的数据集上进行实验，证实其确实是一种比较有效的XML文档聚类方法。分类和聚类有所不同，本项目首先研究了XML文档和DTD标记树的生成方法，并对标记树中节点的概念进行了扩充，使之不但包括元素，同时也包括连接符，以适应DTD结构的要求。随后将标记树中的元素分为共有元素、文档元素和DTD元素，并提出层次权重和结构权重以衡量元素的层次和结构复杂程度，给出具体计算方法。在此基础上提出了一个衡量XML文档和DTD之间相似度的算法，将其应用于XML文档自动分类中，并给出该算法的时间复杂度计算公式。从实验结果可以看出，该分类方法准确率较高。

中文主题词： XML; 数据挖掘; 标记树; 自动聚类; 自动分类

结论摘要：

英文主题词XML; Data Mining; Tag Tree; Clustering; Classification

成果综合统计