位置:立项数据库 > 立项详情页
文本语义模型和子空间聚类研究
  • 项目名称:文本语义模型和子空间聚类研究
  • 项目类别:青年科学基金项目
  • 批准号:60905028
  • 申请代码:F030504
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:景丽萍
  • 负责人职称:副教授
  • 依托单位:北京交通大学
  • 批准年度:2009
中文摘要:

信息化飞速发展的今天,文本数据海量涌现。如何从这些海量的文本数据中快速、自动地挖掘出对人们有用的知识是当今人们面临的重要任务之一,文本挖掘技术也就成了当今的热点研究方向。本项目将针对文本挖掘核心技术- - 文本表示模型构建和聚类方法设计进行创新性的研究,主要体现在以下几个方面针对文本数据特性(海量、高维、稀疏、复杂语义),创建同时涵盖语法和语义信息的文本表示模型;设计适合高维稀疏海量数据的快速有效聚类方法;为聚类结果设计出基于知识库的主题概念抽取方法和结果评估方法;进而开发整合文本预处理、文本模型构建、聚类功能和结果评估展现的文本聚类系统原型,该系统可以作为独立的系统运行,同时也可以作为现有数据挖掘系统的子系统模块。

结论摘要:

信息化飞速发展的今天,文本数据海量涌现。如何从这些海量的文本数据中快速、自动地挖掘出对人们有用的知识是当今人们面临的重要任务之一,文本挖掘技术也就成了当今的热点研究方向。本项目针对文本挖掘核心技术- - 文本表示模型构建和聚类方法设计进行创新性的研究,主要体现在以下几个方面针对文本数据特性(海量、高维、稀疏、复杂语义),创建同时涵盖语法和语义信息的文本表示模型;设计适合高维稀疏海量数据的快速有效聚类方法;为聚类结果设计出基于知识库的主题概念抽取方法和结果评估方法;进而开发整合文本预处理、文本模型构建、聚类功能和结果评估展现的文本聚类系统原型。同时,基于本项目,项目组成员进行了多媒体数据语义分析以及高维数据特征提取等相关研究,并取得了较好的成果,为后续的研究工作提供基础。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 12
  • 11
  • 0
  • 0
  • 0
相关项目
期刊论文 18 会议论文 15
景丽萍的项目