基于多维潜层特征抽取模型的演进式文本过滤-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

基于多维潜层特征抽取模型的演进式文本过滤

项目名称：基于多维潜层特征抽取模型的演进式文本过滤
项目类别：青年科学基金项目
批准号：60905017
申请代码：F030409
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：徐蔚然
负责人职称：副教授
依托单位：北京邮电大学
批准年度：2009

中文摘要：

本项目研究针对短信、邮件和网页的演进式文本过滤。其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足，拟通过改善特征空间解决关键问题，即利用潜层特征提取知识、表示知识和利用知识。项目将主要研究两方面内容根据文档、词语、类别、用户和时间等可观测维度以及它们的内在关联建立关系模型，并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征；根据训练样本的内容和数量，综合考虑可观测的和潜在的特征，构建各种训练样本集下都能达到最高分类精度的识别算法。项目的研究内容符合模式识别和统计学习理论的基本要求，也符合当前技术发展的一般趋势，具有合理性、可行性和创新性。预研结果初步验证了研究方案的合理可行性。

中文主题词：演进式文本过滤；文本分类；潜层特征；多维度；词语激活力

英文摘要：

Evolutional Document Filtering；Text Categorization；Latent Feature；Multi-layer Feature；Word Activation Force

英文主题词： Evolutional Document Filtering；Text Categorization；Latent Feature；Multi-layer Feature；Word Activation Force

结论摘要：

本项目研究针对短信、邮件和网页的演进式文本过滤，其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足，拟通过改善特征空间来解决该问题。通过五个可直接观测的维度(用户u, 词w, 文档d, 类别c, 时间t)来抽取潜在的中间层特征z，从而改善特征空间。项目主要成果如下。提出基于无监督特征选择的LDA(相关维度: w, z, d)，改进了LDA的判别能力。潜在主题z的判别能力由代表词的判别能力决定，而判别能力可用信息增益（IG）衡量。通过在LDA目标函数中加入正则项来优先选择“special word”，并限制“general word”。实验证明该方法有效提高了主题模型的判别能力。提出Dual-PLSA模型(相关维度: w, z, c, d)，用最少的标注样本获得最快的分类器收敛性能。构造两个PLSA模型:标准的PLSA模型，用以通过无监督方式抽取语义内容特征；c-w PLSA模型，即类别和词语对应的PLSA模型；基于中间类别样本并通过少量监督训练文本的撬动作用来抽取z。实验表明Dual-PLSA的收敛速度大大快于NBC。在t维度研究突发话题检测,主要成果有提出Kleinberg二状态自动机模型中解析度参数的估算方法；借鉴最大熵方法，将突发特征检测转化为最小化当前分布到其均匀分布KL距离的问题，从而提出抗噪能力强的突发特征检测算法；研究了仅对文本数据进行静态分析（主题分析）来找到突发话题的方法；提出一种基于半随机游走的动态主题模型对新闻标题进行建模。提出基于激活力(Word Activation Force, WAF)和亲和度(Affinity)的文本表示和分类方法(相关维度: w, d)，该方法为超越BOW模型提供了重要的思路。提出基于WAF的动态规划分词与新词发现算法(相关维度: w, d)，给出了一种不需要先验词库的分词与新词发现新思路。

成果综合统计