位置:立项数据库 > 立项详情页
基于语义的中文文本聚类研究
  • 项目名称:基于语义的中文文本聚类研究
  • 项目类别:面上项目
  • 批准号:60772081
  • 申请代码:F010303
  • 项目来源:国家自然科学基金
  • 研究期限:2008-01-01-2010-12-31
  • 项目负责人:施水才
  • 负责人职称:教授
  • 依托单位:北京信息科技大学
  • 批准年度:2007
中文摘要:

文本聚类是当前智能信息处理学科的前沿领域和最热门课题之一,融合了模式识别、机器学习、统计学等知识。由于电子邮件、WWW 应用的普及,文本聚类在信息检索、邮件过滤和网页分类等领域有广阔的应用前景。现今中文文本聚类多是照搬英文聚类方法,没有结合中文特点。本项目研究了基于语义的中文文本聚类方法,将中文语义特征引入到文本聚类研究中,主要包括服务于聚类的中文语义词典建设研究、基于语义的文本表示模型研究、基于语义的文本相似度计算模型研究、基于语义的自适应高效文本聚类算法研究等,以期通过对中文文本特点、特别是语义特点的研究,建立基于语义的文本聚类模型,解决中文文本聚类中存在的关键问题,从而实现准确高效的中文文本聚类。三年来,按照研究计划完成了研究任务,取得了超过预期的研究成果。发表期刊文章9篇,会议论文9篇。培养了9 名研究生。项目的研究不仅取得了一批理论成果,而且已经在舆情管理、信息检索等大型工程项目中得到应用。

结论摘要:

英文主题词Text clustering; semantics; dictionary; text similarity; text vector


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 13
  • 5
  • 0
  • 0
  • 0
相关项目
期刊论文 19 会议论文 15 著作 1
期刊论文 31 会议论文 5
施水才的项目
期刊论文 11 会议论文 11