本项目研究针对短信、邮件和网页的演进式文本过滤。其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足,拟通过改善特征空间解决关键问题,即利用潜层特征提取知识、表示知识和利用知识。项目将主要研究两方面内容根据文档、词语、类别、用户和时间等可观测维度以及它们的内在关联建立关系模型,并基于该模型抽取隐藏的、具有概括性和完备性的潜在中间层特征;根据训练样本的内容和数量,综合考虑可观测的和潜在的特征,构建各种训练样本集下都能达到最高分类精度的识别算法。项目的研究内容符合模式识别和统计学习理论的基本要求,也符合当前技术发展的一般趋势,具有合理性、可行性和创新性。预研结果初步验证了研究方案的合理可行性。
Evolutional Document Filtering;Text Categorization;Latent Feature;Multi-layer Feature;Word Activation Force
本项目研究针对短信、邮件和网页的演进式文本过滤,其特点是个性化需求、变化的文本内容、变化的分类类别和更主动的功能要求等。演进式过滤的根本问题是训练样本不足,拟通过改善特征空间来解决该问题。通过五个可直接观测的维度(用户u, 词w, 文档d, 类别c, 时间t)来抽取潜在的中间层特征z,从而改善特征空间。项目主要成果如下。 提出基于无监督特征选择的LDA(相关维度: w, z, d),改进了LDA的判别能力。潜在主题z的判别能力由代表词的判别能力决定,而判别能力可用信息增益(IG)衡量。通过在LDA目标函数中加入正则项来优先选择“special word”,并限制“general word”。实验证明该方法有效提高了主题模型的判别能力。 提出Dual-PLSA模型(相关维度: w, z, c, d),用最少的标注样本获得最快的分类器收敛性能。构造两个PLSA模型:标准的PLSA模型,用以通过无监督方式抽取语义内容特征;c-w PLSA模型,即类别和词语对应的PLSA模型;基于中间类别样本并通过少量监督训练文本的撬动作用来抽取z。实验表明Dual-PLSA的收敛速度大大快于NBC。 在t维度研究突发话题检测,主要成果有提出Kleinberg二状态自动机模型中解析度参数的估算方法;借鉴最大熵方法,将突发特征检测转化为最小化当前分布到其均匀分布KL距离的问题,从而提出抗噪能力强的突发特征检测算法;研究了仅对文本数据进行静态分析(主题分析)来找到突发话题的方法;提出一种基于半随机游走的动态主题模型对新闻标题进行建模。 提出基于激活力(Word Activation Force, WAF)和亲和度(Affinity)的文本表示和分类方法(相关维度: w, d),该方法为超越BOW模型提供了重要的思路。提出基于WAF的动态规划分词与新词发现算法(相关维度: w, d),给出了一种不需要先验词库的分词与新词发现新思路。