数据驱动的特征选择形式化研究-东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：立项数据库 > 立项详情页

数据驱动的特征选择形式化研究

项目名称：数据驱动的特征选择形式化研究
项目类别：面上项目
批准号：60873166
申请代码：F020601
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：徐燕
负责人职称：副教授
依托单位：中国科学院计算技术研究所
批准年度：2008

中文摘要：

文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术。文本自动分类的主要困难之一是特征空间的维数很高，为此特征选择是文本分类中的一个非常重要的步骤。在文本分类中，存在多个特征选择算法，而对这些特征选择算法的分析基本上是使用实验的手段，缺乏理论分析，本项目首先提出一种对特征选择算法进行形式化分析的方法，寻找特征选择算法需要满足的基本约束，在这组基本约束的基础上，构造高性能特征选择函数的通用方法；其次，由于已有的实验证明在不同的语料集（不同的数据分布）上，同一个特征选择方法表现出不同的性能，因此本项目提出鲁棒的特征选择方法是关于数据分布的一个函数，即，特征选择方法是由数据驱动的，从而提出数据驱动的特征选择方法。概括来说，本项目研究数据驱动的形式化特征选择方法。本项目的研究面对的是文本分类的核心问题，具有重要的研究价值，也具有广阔的应用前景。

中文主题词：信息检索；文本分类；特征选择；显著性检测

成果综合统计

期刊论文
会议论文
专利
获奖
著作

8
14
0
0
0

基于日志分析的搜索引擎查询结果缓存研究

一种基于预取感知接纳策略的查询结果缓存方法

基于用户行为分析的个人信息检索研究

基于结构驱动的网络论坛采集路径研究

基于类别分布的特征选择框架

基于数据挖掘的网络链接预测研究

文本分类中特征权重因子的作用研究

Tag—TextRank：一种基于Tag的网页关键词抽取方法

会议论文

A Comparative Study on Feature Selection in Chinese Spam Filtering

非均衡文本分类中基于特征分布的抽样技术研究

Rough set and its Application in Chinese Spam Filtering

Query dependent pseudo-relevance feedback based on wikipedia

Knowledge Measurement Based on Rough Set

中文网页搜索日志中的特殊命名实体挖掘

A keyword based strategy for spam topic discovery from the Internet

Evaluation Approaches of Information Systems Service Quality

Quality of College Teaching-Aided Website Service: Case Study

A Study for Important Criteria of Feature Selection in Text Categorization

An Online Linear Chinese Spam Emails Filtering System

A model of cluster-based rough set and its Application

Term-frequency based feature Selection methods for Text Categorization

A general framework of feature selection for text categorization

相关项目

多元网络架构中异构信息的采集与检索技术研究

期刊论文 5 会议论文 13

面向海量图像数据的检索技术的研究

期刊论文 15 会议论文 16

H.264/AVC数字视频取证关键技术研究

期刊论文 26 会议论文 12

多标记数据特征选择及其应用的研究

期刊论文 16 会议论文 13 获奖 2

支持查询语句复述的概念扩展查询方法研究

期刊论文 32 会议论文 13 获奖 1 专利 5 著作 1

基于用户群体行为建模的跨域多模态信息搜索和内容推荐

期刊论文 8 会议论文 40

跨语言文本自动分类关键技术研究

期刊论文 5 会议论文 14 专利 2

基于面向话题的加权社会网络的个性化推荐及检索技术研究

期刊论文 33 会议论文 41

基于认知机理和语义层次的文本分类方法研究

期刊论文 7

徐燕的项目