位置:立项数据库 > 立项详情页
基于多维潜层特征抽取模型的演进式文本过滤
  • 项目名称:基于多维潜层特征抽取模型的演进式文本过滤
  • 项目类别:青年科学基金项目
  • 批准号:60905017
  • 申请代码:F030409
  • 项目来源:国家自然科学基金
  • 研究期限:2010-01-01-2012-12-31
  • 项目负责人:徐蔚然
  • 负责人职称:副教授
  • 依托单位:北京邮电大学
  • 批准年度:2009
中文摘要:

本项目研究针对短信、邮件和网页的演进式文本过滤。其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足,拟通过改善特征空间解决关键问题,即利用潜层特征提取知识、表示知识和利用知识。项目将主要研究两方面内容根据文档、词语、类别、用户和时间等可观测维度以及它们的内在关联建立关系模型,并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征;根据训练样本的内容和数量,综合考虑可观测的和潜在的特征,构建各种训练样本集下都能达到最高分类精度的识别算法。项目的研究内容符合模式识别和统计学习理论的基本要求,也符合当前技术发展的一般趋势,具有合理性、可行性和创新性。预研结果初步验证了研究方案的合理可行性。

结论摘要:

本项目研究针对短信、邮件和网页的演进式文本过滤,其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足,拟通过改善特征空间来解决该问题。通过五个可直接观测的维度(用户u, 词w, 文档d, 类别c, 时间t)来抽取潜在的中间层特征z,从而改善特征空间。项目主要成果如下。 提出基于无监督特征选择的LDA(相关维度: w, z, d),改进了LDA的判别能力。潜在主题z的判别能力由代表词的判别能力决定,而判别能力可用信息增益(IG)衡量。通过在LDA目标函数中加入正则项来优先选择“special word”,并限制“general word”。实验证明该方法有效提高了主题模型的判别能力。 提出Dual-PLSA模型(相关维度: w, z, c, d),用最少的标注样本获得最快的分类器收敛性能。构造两个PLSA模型:标准的PLSA模型,用以通过无监督方式抽取语义内容特征;c-w PLSA模型,即类别和词语对应的PLSA模型;基于中间类别样本并通过少量监督训练文本的撬动作用来抽取z。实验表明Dual-PLSA的收敛速度大大快于NBC。 在t维度研究突发话题检测,主要成果有提出Kleinberg二状态自动机模型中解析度参数的估算方法;借鉴最大熵方法,将突发特征检测转化为最小化当前分布到其均匀分布KL距离的问题,从而提出抗噪能力强的突发特征检测算法;研究了仅对文本数据进行静态分析(主题分析)来找到突发话题的方法;提出一种基于半随机游走的动态主题模型对新闻标题进行建模。 提出基于激活力(Word Activation Force, WAF)和亲和度(Affinity)的文本表示和分类方法(相关维度: w, d),该方法为超越BOW模型提供了重要的思路。提出基于WAF的动态规划分词与新词发现算法(相关维度: w, d),给出了一种不需要先验词库的分词与新词发现新思路。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 10
  • 21
  • 0
  • 0
  • 0
相关项目
期刊论文 34 会议论文 4 获奖 2 著作 2
期刊论文 23 会议论文 11
期刊论文 5 会议论文 14 专利 2
期刊论文 269 会议论文 166 专利 3
期刊论文 23 会议论文 16
徐蔚然的项目