由于具有结构化、可扩展性、跨平台性等特点, XML已逐渐成为信息存储与交换的主要形式。如何有效利用XML文档中的结构信息与内容信息进行XML文档集的分析挖掘是一个值得研究的科学问题。结构链接向量模型(SLVM)是我们提出的一种综合考虑结构信息与内容信息的半结构化文档模型。本项目以SLVM 模型为基础,针对大规模XML文档集结构复杂、内容丰富等特点,重点研究了XML文档集的特征选择与特征描述、特征归约与降维、语义分析与链接分析、增量式聚类与自适应性策略以及结构化文档搜索等问题。本项目中提出了从XML文档集中提取闭合频繁子树作为结构单元进行XML文档分类聚类的方法,并具体研究了闭合频繁子树提取方法、闭合频繁子树的筛选方法以及结合语义分析与链接分析等方法手段,有效解决了大规模XML文档分类聚类中结构信息与内容信息充分利用的问题。本项目执行中,参加了2009年、2010年和2011年三个年度的XML方面的国际权威评测INEX均取得了理想的成绩。该项目研究对半结构化的XML文档分析具有重要理论意义,对深入分析利用日益增长的半结构化文档具有重要应用价值。
英文主题词XML Document; Classification; Clustering; Text Mining; Structure Analysis