面向大规模XML文档集的文本分类与聚类技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

面向大规模XML文档集的文本分类与聚类技术研究

项目名称：面向大规模XML文档集的文本分类与聚类技术研究
项目类别：面上项目
批准号：60875033
申请代码：F030504
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：杨建武
负责人职称：副研究员
依托单位：北京大学
批准年度：2008

中文摘要：

由于具有结构化、可扩展性、跨平台性等特点， XML已逐渐成为信息存储与交换的主要形式。如何有效利用XML文档中的结构信息与内容信息进行XML文档集的分析挖掘是一个值得研究的科学问题。结构链接向量模型（SLVM）是我们提出的一种综合考虑结构信息与内容信息的半结构化文档模型。本项目以SLVM 模型为基础，针对大规模XML文档集结构复杂、内容丰富等特点，重点研究了XML文档集的特征选择与特征描述、特征归约与降维、语义分析与链接分析、增量式聚类与自适应性策略以及结构化文档搜索等问题。本项目中提出了从XML文档集中提取闭合频繁子树作为结构单元进行XML文档分类聚类的方法，并具体研究了闭合频繁子树提取方法、闭合频繁子树的筛选方法以及结合语义分析与链接分析等方法手段，有效解决了大规模XML文档分类聚类中结构信息与内容信息充分利用的问题。本项目执行中，参加了2009年、2010年和2011年三个年度的XML方面的国际权威评测INEX均取得了理想的成绩。该项目研究对半结构化的XML文档分析具有重要理论意义，对深入分析利用日益增长的半结构化文档具有重要应用价值。

中文主题词： XML文档；文本分类；文本聚类；文本挖掘；结构分析

结论摘要：

英文主题词XML Document; Classification; Clustering; Text Mining; Structure Analysis

成果综合统计