本课题通过建立一个新型的半监督文本聚类方法,结合主动学习方法,并利用狄利克莱过程混合模型,实现文本数据的个性化聚类划分。运用新型的主动学习方法提炼用户聚类需求,并转化为结构化监督数据指导半监督文本聚类。运用狄利科莱过程混合模型,根据用户的聚类需求,个性化的划分文本数据到任意多个聚类中。结合主动学习与半监督文本聚类,使主动学习与半监督文本聚类方法互相促进,逐步逼近用户聚类理想方案。本课题是对半监督文本聚类算法的突破研究,解决现行半监督文本聚类算法的两个难点问题(1) 忽略了用户的个体意愿,无法个性化的整理分析文本数据;(2)聚类数目被假设为已知参数,由用户在运行聚类算法之前提供。在文本分析的应用领域,本课题的预期成果将为个性化文本分析提供解决方法,并将为个性化新闻数据分析的实际应用提供探索性研究。
英文主题词text mining;data mining;document clustering;semi-supervised document clustering;