位置:立项数据库 > 立项详情页
半监督文本聚类算法在个性化文本分析上的研究
  • 项目名称:半监督文本聚类算法在个性化文本分析上的研究
  • 项目类别:青年科学基金项目
  • 批准号:61202089
  • 申请代码:F020107
  • 项目来源:国家自然科学基金
  • 研究期限:2013-01-01-2015-12-31
  • 项目负责人:黄瑞章
  • 依托单位:贵州大学
  • 批准年度:2012
中文摘要:

本课题通过建立一个新型的半监督文本聚类方法,结合主动学习方法,并利用狄利克莱过程混合模型,实现文本数据的个性化聚类划分。运用新型的主动学习方法提炼用户聚类需求,并转化为结构化监督数据指导半监督文本聚类。运用狄利科莱过程混合模型,根据用户的聚类需求,个性化的划分文本数据到任意多个聚类中。结合主动学习与半监督文本聚类,使主动学习与半监督文本聚类方法互相促进,逐步逼近用户聚类理想方案。本课题是对半监督文本聚类算法的突破研究,解决现行半监督文本聚类算法的两个难点问题(1) 忽略了用户的个体意愿,无法个性化的整理分析文本数据;(2)聚类数目被假设为已知参数,由用户在运行聚类算法之前提供。在文本分析的应用领域,本课题的预期成果将为个性化文本分析提供解决方法,并将为个性化新闻数据分析的实际应用提供探索性研究。

结论摘要:

英文主题词text mining;data mining;document clustering;semi-supervised document clustering;


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 8
  • 0
  • 0
  • 0
  • 0
相关项目
期刊论文 18 会议论文 15
期刊论文 30 会议论文 14 获奖 1
黄瑞章的项目