随着网络技术的飞速发展,各种文本信息呈爆炸性增长。面对海量文本数据,传统文本挖掘算法需要计算高维稀疏矩阵,过高的计算复杂性严重阻碍了文本挖掘技术的应用。近年来,半监督学习和吸引子传播聚类逐渐兴起。为此,本项目主要研究基于吸引子传播的半监督文本挖掘方法。其内容主要包括(1)针对具体文本挖掘问题和数据,提出包含文本结构信息的非欧空间多尺度相似性度量。(2)构建融合新相似性度量、多种半监督学习策略和吸引子传播聚类的新半监督文本聚类模型和算法。(3)研究基于多文档、多尺度、多类别的双层半监督吸引子传播聚类自动文摘模型和算法。(4)在文本挖掘框架下,对多种半监督学习策略和多种聚类算法进行系统地交叉比较,分析影响半监督聚类的关键因素,应用函数拟合、最小二乘法等方法预测各种算法聚类性能曲线的"最佳平衡点",为算法实际应用提供指导。项目研究成果将为自然语言处理、信息检索等领域提供更加有效的方法和手段。
Affinity Propagation;Semi-supervised Learning;Incremental and Decremental Learnning;Text Mining;
本项目设计和实现了吸引子传播框架下的半监督文本挖掘分析模型和算法。主要工作如下 1. 为解决传统聚类算法(如k-means算法)需要计算高维稀疏矩阵带来的高计算复杂度问题,利用双向量子空间上的夹角余弦系数度量替代整个向量空间上的欧式距离。同时,引入了半监督学习策略来进一步提高学习效率。实验结果证明了算法的有效性、揭示了知名学术期刊的关联网络并推动了生物医学文献聚类分析的发展。 2. 提出了生物信息学者社会网络模型,运用复杂网络和关联矩阵分析生物信息国际会议执行委员关系,分析出了网络中的三个关键会议节点、五个关键委员节点和一个研究社团,同时讨论了该学者网络的无标度特性和小世界性。该模型的提出拓宽了社交网络的研究领域,分析了研究社团和关键委员节点在整个网络中的贡献以及各会议之间的共性和联系。 3. 提出了基于类分布非均衡数据支持向量反向传播(SV-BP)神经网络分类算法,并将新算法应用到关于活性污泥质量的文本格式数据分类中。利用聚类算法对活性污泥质量分类提供了决策支持。 4. 将半监督学习与增量学习、减量学习相结合,建立了增/减量式学习策略,提出了增/减量式半监督吸引子传播模型和算法;该方法充分利用少量先验知识,建立标记函数,通过增/减量方式选择与标记样本最接近的未标记数据进行标记,有效地解决了半监督学习中学习偏差问题和稳定性/可塑性两难问题,为更加有效地利用仅有的少量标记样本对大量未标记样本进行分析提供了新手段和方法。 5. 深化了吸引子传播和半监督学习在分类方面的应用研究。利用相关成分分析结合正约束得到白化矩阵,定义了特征测度概念,该测度能够同时衡量单个波段的可分性和波段之间的相关性,构建了基于特征测度的吸引子传播模型与算法;该算法能够有效地选择出代表特征,减少冗余,从而提高了算法性能。上述工作深化了吸引子传播在文本挖掘领域的研究,为解决海量文本向量空间模型带来的维数灾难现象提供了新的半监督模型和聚类算法。同时,将新模型和算法有效的应用到不同类型和不同领域的文本类型数据中,并对多种半监督学习策略和多种聚类算法进行系统地交叉比较,分析影响半监督聚类的关键因素,最终给出了不同应用领域中的最佳模型和算法。项目成果汇集了新提出的模型和算法,搭建了半监督文本挖掘平台并获得了软件著作权,申报了专利。获得教育部自然科学奖二等奖1项,中国商业联合会科学技术一等奖和二等奖各1项。