本课题针对文本信息表示、特征选择、学习算法、遗传算法及其改进、过滤模板的反馈机制、网络舆情处理等进行了深入研究。项目在针对信息过滤现状以及必要性进行了调查和分析完成相关调研报告的基础上,在网络信息过滤数据包截获技术方面提出截获网页数据包并重组为网页文件的算法模型,在特征抽取方面提出了基于KNN的空间降维方法、应用特征项分布信息的信息增益改进方法、基于语义神经网络的文本特征选择方法等,在分类算法方面探索了KNN、贝叶斯以及支持向量机等相关算法的应用和改进,设计实现了基于模糊遗传算法的网络信息过滤模型并从理论上进行了证明,针对网络信息过滤中的垃圾邮件过滤问题提出了结合特征和非特征信息垃圾邮件表示方法以及基于改进支持向量机垃圾邮件过滤模型和基于改进贝叶斯的两步分类模型,针对网络信息过滤反馈机制提出了对过滤模板特征权重的调整及基于朴素贝叶斯的增量学习反馈机制。课题对网络信息过滤相关研究进行了扩展,研究了网络舆情信息处理相关问题,提出了基于最大熵模型的评价搭配识别方法、一种基于极性词典的情感分析方法、基于LDA模型的网络新闻专题子话题划分方法以及基于反馈报道的话题模型动态修正方法。
英文主题词Network information filtering;Fuzzy genetic algorithm;Spam filtering;Public opinion;Information processing;Shallow semantic analysis