半监督文本聚类算法在个性化文本分析上的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

半监督文本聚类算法在个性化文本分析上的研究

项目名称：半监督文本聚类算法在个性化文本分析上的研究
项目类别：青年科学基金项目
批准号：61202089
申请代码：F020107
项目来源：国家自然科学基金
研究期限：2013-01-01-2015-12-31

项目负责人：黄瑞章
依托单位：贵州大学
批准年度：2012

中文摘要：

本课题通过建立一个新型的半监督文本聚类方法，结合主动学习方法，并利用狄利克莱过程混合模型，实现文本数据的个性化聚类划分。运用新型的主动学习方法提炼用户聚类需求，并转化为结构化监督数据指导半监督文本聚类。运用狄利科莱过程混合模型，根据用户的聚类需求，个性化的划分文本数据到任意多个聚类中。结合主动学习与半监督文本聚类，使主动学习与半监督文本聚类方法互相促进，逐步逼近用户聚类理想方案。本课题是对半监督文本聚类算法的突破研究，解决现行半监督文本聚类算法的两个难点问题(1) 忽略了用户的个体意愿，无法个性化的整理分析文本数据；（2）聚类数目被假设为已知参数，由用户在运行聚类算法之前提供。在文本分析的应用领域，本课题的预期成果将为个性化文本分析提供解决方法，并将为个性化新闻数据分析的实际应用提供探索性研究。

中文主题词：文本挖掘；数据挖掘；文本聚类；半监督文本聚类；

结论摘要：

英文主题词text mining；data mining；document clustering；semi-supervised document clustering；

成果综合统计