针对文本分类技术存在的突出问题,本项目拟在项目组大量前期研究工作基础上,进一步深化和拓展半监督分类和集成分类的研究,主要包括利用主题词表等信息和多种评估函数,并结合运用遗传算法和随机判定树方法,提取文本特征并进行权值调整;基于特征依赖模型并结合特征多视图与差异性评估,改进Co-training、TSVM等半监督分类算法;尝试提出创新性的多基分类器间的差异性评估的方法,通过利用特征多视图和基于投票熵的权重维护新策略,建立新的Boosting分类模型;结合半监督学习与集成学习,提出改进的Semi-Boosting 分类模型,以提高集成分类器的泛化能力;研究海量数据下半监督学习的样本分布和执行效率问题及图结构构建算法。本项目还将面向航运领域大规模专业文献,研制开发实用分类系统。该项研究工作对于促进文本分类技术发展特别是其实用化具有重要意义,所获得研究成果对其它类型的分类问题有较大参考价值。
Diversity;confidence sampling;base classifier;spectral clustering;MCMC
自动分类技术可广泛应用于图书、情报、新闻媒体、互联网等领域,是人类处理浩如烟海的海量文本信息的重要手段,其研究工作一直是文本挖掘、信息检索和数据挖掘领域的热点。但是对于数据量较大、标注不完整、更为复杂特别是大规模应用问题,现有的文本分类技术性能和效果(精度、速度、人工辅助工作量、应用范围和程度等)还不能令人满意,与现实需求的距离还很大。 半监督学习具有可充分利用未标注样本的优势,集成学习可以克服单个分类器分类精度的不足, 有效提高学习系统的泛化能力。本项目研究了集成学习中多样性、随机性和准确性的关系,通过大量的实验表明增加多样性可以提高集成学习学习器的准确性,但是过多地引入随机性虽然增加了多样性但是会降低准确性。在上述结论的基础上,提出了基于置信度取样的SemiBoost-CR算法,利用未标记样本使用半监督学习的方法提高集成学习基分类器差异性,提高了分类准确率,也解决了分类算法不稳定性问题。进一步,本项目融合迁移学习与协同训练,辅助半监督学习训练,提高未标记样本与其近邻标注样本的分类一致性,也进一步提高了分类准确率。在集成学习的研究中,基学习器的选取是非常重要的,本项目研究了基于频繁项集的双层贝叶斯分类器和面向多值多分类的决策树算法,从基分类器角度扩大学习器的适用范围。 在半监督聚类的研究中,本项目在分析单词-文档谱聚类方法的基本步骤、找出其对初始值敏感的根本原因的基础上,提出一种基于模糊-调和均值的单词-文档谱聚类方法和基于形态学的单词-文档谱聚类方法。 除了上述集成学习与半监督学习内容之外,本项目还研究了机器学习中的特征抽取技术以及计算方法研究。在特征抽取方面,提出了基于SVR的复数方向金字塔域的彩色图像水印算法和基于四元数离散余弦变换算法的鲁棒彩色图像水印,可以较好地达到高鲁棒性和良好的视觉质量。在机器学习计算方法方面,提出了基于MCMC后验概率的抽样方法和基于汉密尔顿-MCMC的参数估计方法,在视觉跟踪领域取得了良好的效果。