给定一个专业主题,如何在Web上搜集与该主题相关的网页是建造各种专业搜索引擎的核心问题. 本研究以蚁群系统、神经元网、进化计算等自然算法为基础,结合增强学习方法,探讨面向主题的智能化高效网页自动搜集技术,在国际上已有工作的基础上,提出新的主题爬行模型和算法,改善主题爬行策略和主题识别精度,从而提高收获率(harvest rate),同时重点解决(1)移动式主题爬行问题;(2)增量式与二次主题爬行问题;(3)多agent协同爬行时的最大覆盖与最小重叠问题. 主题爬行研究的目标是提供建立专业搜索引擎的一般技术和通用算法,通过提高网页搜集的效率和质量提高专业搜索引擎在领域内的权威性,降低专业搜索引擎的建造和运行代价,同时最大限度降低网络传输负载. 除专业搜索引擎外,主题爬行技术还可用于动态Web检索和个性化定制的Web检索服务,突破引擎检索的局限性,具有广阔的应用前景.
主题爬行的核心问题是主题类识别方法与爬行算法.本研究以粒子群优化算法、进化计算等自然算法为基础,结合一阶谓词逻辑方法,探讨面向主题的智能化高效网页自动搜集技术,在国际上已有工作的基础上,创造性地提出了基于一阶谓词逻辑的主题爬行模型和算法(一阶主题爬行),提出了基于粒子群算法的主题识别技术,大幅度改善了主题爬行策略和主题识别精度,从而提高了收获率(harvest rate)。实验结果表明,我们提出的一阶主题爬行算法在收获比等指标方面优于已有的最佳优先(BF)、加速(accelerated)爬行算法,为各类专业搜索引擎的建立提供了一般技术和通用算法。通过提高网页收集效率和质量,提高了专业搜索引擎在领域内的权威性,降低了专业搜索引擎的建造和运行代价,同时最大限度降低了网络负载。除专业搜索引擎外,主题爬行技术还可用于Web动态信息检索和个性化网页定制,具有广阔应用前景。基于本课题的支持,在《计算机学报》、《计算机研究与发展》等刊物和ACM WWW2007,IEEE/WIC/ACM Web Intelligence等国际会议上发表论文40余篇,其中SCI/EI/ISTP检索论文28篇