本课题研究了基于仿生模式识别理论在网站、网页分类问题上的应用。1)研究了基于多权值神经网络的网页文本的分类模型,分别提出了基于最小生成树、文本相似度的神经元生成算法;2)研究了网站拓扑结构的有向图和多粒度页面树的表示。在此基础上,研究了网站主题结构的提取方法,分别给出了基于内容分析和结构分析的两种网站关键资源获取方法。将上述方法应用于网站分类,实验显示它们将网站分类的准确率远超过超页法。3)在网站主题向量表示方面,改进了向量空间模型,使之可以有效处理网站的结构特征和内容特征。4)针对关键资源网页的排序问题,本课题提出了两种改进的PageRank算法。在计算页面相似度时,分别引入了链接相似度和内容相似度概念,综合考虑链接相似度和内容相似度对网页重要性PR值的传递作用。实验证明联合了链接相似度和内容相似度的页面相似度方法在网站分类问题上取得了最好的结果。5)本课题通过大量的对比实验,系统性考察了各种不同的分类算法在网站分类问题上的表现。实验结果显示基于关键资源的网站分类策略是有效的,基于网站的结构分析与内容分析相结合的网站分类方法取得了最好的结果。
英文主题词site classification, topic-revelant site structure, page similarity, biomimetics pattern recognition.