位置:立项数据库 > 立项详情页
数据驱动的特征选择形式化研究
  • 项目名称:数据驱动的特征选择形式化研究
  • 项目类别:面上项目
  • 批准号:60873166
  • 申请代码:F020601
  • 项目来源:国家自然科学基金
  • 研究期限:2009-01-01-2011-12-31
  • 项目负责人:徐燕
  • 负责人职称:副教授
  • 依托单位:中国科学院计算技术研究所
  • 批准年度:2008
中文摘要:

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术。文本自动分类的主要困难之一是特征空间的维数很高,为此特征选择是文本分类中的一个非常重要的步骤。在文本分类中,存在多个特征选择算法,而对这些特征选择算法的分析基本上是使用实验的手段,缺乏理论分析,本项目首先提出一种对特征选择算法进行形式化分析的方法,寻找特征选择算法需要满足的基本约束,在这组基本约束的基础上,构造高性能特征选择函数的通用方法;其次,由于已有的实验证明在不同的语料集(不同的数据分布)上,同一个特征选择方法表现出不同的性能,因此本项目提出鲁棒的特征选择方法是关于数据分布的一个函数,即,特征选择方法是由数据驱动的,从而提出数据驱动的特征选择方法。概括来说,本项目研究数据驱动的形式化特征选择方法。本项目的研究面对的是文本分类的核心问题,具有重要的研究价值,也具有广阔的应用前景。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 8
  • 14
  • 0
  • 0
  • 0
相关项目
期刊论文 15 会议论文 16
期刊论文 26 会议论文 12
期刊论文 16 会议论文 13 获奖 2
期刊论文 32 会议论文 13 获奖 1 专利 5 著作 1
期刊论文 5 会议论文 14 专利 2
徐燕的项目