基于语义的中文文本聚类研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于语义的中文文本聚类研究

项目名称：基于语义的中文文本聚类研究
项目类别：面上项目
批准号：60772081
申请代码：F010303
项目来源：国家自然科学基金
研究期限：2008-01-01-2010-12-31

项目负责人：施水才
负责人职称：教授
依托单位：北京信息科技大学
批准年度：2007

中文摘要：

文本聚类是当前智能信息处理学科的前沿领域和最热门课题之一，融合了模式识别、机器学习、统计学等知识。由于电子邮件、WWW 应用的普及，文本聚类在信息检索、邮件过滤和网页分类等领域有广阔的应用前景。现今中文文本聚类多是照搬英文聚类方法，没有结合中文特点。本项目研究了基于语义的中文文本聚类方法，将中文语义特征引入到文本聚类研究中，主要包括服务于聚类的中文语义词典建设研究、基于语义的文本表示模型研究、基于语义的文本相似度计算模型研究、基于语义的自适应高效文本聚类算法研究等，以期通过对中文文本特点、特别是语义特点的研究，建立基于语义的文本聚类模型，解决中文文本聚类中存在的关键问题，从而实现准确高效的中文文本聚类。三年来，按照研究计划完成了研究任务，取得了超过预期的研究成果。发表期刊文章9篇，会议论文9篇。培养了9 名研究生。项目的研究不仅取得了一批理论成果，而且已经在舆情管理、信息检索等大型工程项目中得到应用。

中文主题词：文本聚类；语义；词典；文本相似度；文本向量

结论摘要：

英文主题词Text clustering; semantics; dictionary; text similarity; text vector

成果综合统计