随着博客、wiki、微博等社会化媒体的普及应用,如何从社会化媒体文本流中动态识别出特定主题的内容已成为很多应用领域广泛关注的问题。这个应用问题可以转换为文本流动态分类问题,其关键研究难点是在小样本和无增量训练样本的条件下,如何使分类算法能自动从无类标数据中学习,进而能动态更新和优化分类模型,最终使分类器的精度能随时间的推移不断提高。本课题围绕这个关键问题,在分析社会化媒体文本流特征的基础上,研究基于聚类树分类和集成学习的文本流动态分类模型,以及该模型下的关键算法(1)聚类树学习算法,用于解决小样本半监督学习问题;(2)主题漂移检测算法,用于解决分类模型何时更新的问题;(3)基于聚类树森林的动态识别算法,用于解决分类模型如何更新的问题。课题的创新在于基于动态聚类树集成学习的社会化媒体文本流分类模型;基于聚类簇概念相似性计算的主题漂移检测算法;基于误差估计的分类模型动态更新算法。
Social Media;Text Classification;Data Stream;Cluster Tree;
随着博客、wiki、微博等社会化媒体的普及应用,如何从社会化媒体文本流中动态识别出特定主题内容成为广泛关注的问题。这个应用问题可以转换为文本流动态分类问题。本课题围绕这个核心问题,在分析社会化媒体文本流特征的基础上,研究基于聚类树分类和集成学习的文本流动态分类模型,以及该模型下的关键算法(1)社会化媒体的静态分类算法,研究了聚类树学习算法以及基于高维数据特征子空间分层抽样的随机森林集成学习算法;(2)主题漂移检测算法以及基于聚类树森林的动态识别算法,用于解决分类模型如何更新的问题;(3)社会化媒体的社区结构发现及多关系社会化媒体的查询和排序,用于优化社会化媒体的结构特征挖掘,并结合社会化媒体的结构和内容,提出多实例多类标分类算法。基于项目的相关研究成果,项目组发表学术论文20篇,其中SCI国际期刊15篇,包括重要国际期刊IEEE Transactions on Knowledge and Data Engineering、IEEE Transactions on Neural Networks and Learning Systems、IEEE Transactions on Cybernetics、Pattern Recognition和重要国际会议SIGKDD、SDM等。