深层网是互联网上最大、发展最快的新型信息资源,由于其具有高度自治性、动态性及异构性的特点,致使深层网资源搜索面临极大的挑战。目前提出的搜索方法在思路和策略上难以满足实际搜索需求,本项目针对社会性标注及本体在概念语义描述和资源揭示上的互补优势,将其引入到深层网搜索领域,建立具有适用性和实用性的基于社会性标注及本体的深层网语义搜索新方法。首先,从探讨深层网语义搜索的机制入手,研究以社会性标注语义分析及本体自动构建为核心的深层网语义搜索策略,并构建相应的模型框架。在此基础上,重点解决与深层网语义搜索密切相关的社会性标注语义分析、基于社会性标注的深层网资源聚焦及本体构建与演化、动态可扩展深层网语义查询及结果聚合优化等关键问题。最后,给出基于社会性标注及本体的深层网语义搜索质量评估机制,并结合构建的实验原型系统,检验搜索策略及模型的有效性,为改善深层网搜索性能提供新思路和理论方法依据。
Deep Web;Social annotations;Ontology;Semantic search;
深层网是互联网上最大、发展最快的新型信息资源,由于其具有高度自治性、动态性及异构性的特点,致使深层网资源搜索面临极大的挑战。本项目针对社会性标注及本体在概念语义描述和资源揭示上的互补优势,将其引入到深层网搜索领域,建立具有适用性和实用性的基于社会性标注及本体的深层网语义搜索新方法。主要研究工作如下引入社会性标注及语义Web本体思想,研究深层网语义搜索机制,在完成了基于社会性标注及本体的深层网语义搜索方法与传统搜索方法对比的基础上,确立了以社会性标注语义分析及本体自动构建为核心的深层网语义搜索机制和策略,构建了深层网语义搜索模型。研究大众分类法Folksonomy概念模型及社会性标注的语义规律,挖掘潜在语义关系,分析社会性标注语义全局效应,实现深层网数据源准确聚焦。提出基于社会性标注的本体自动构建方法,解决在领域概念及社会性标注稀疏情况下的本体自动构建,为深层网资源定位提供支撑。研究高效的动态可扩展深层网语义查询算法,重点解决语义查询请求的语义扩展问题。利用标签的多特征性及语义内联性的特点,提出一种基于改进潜在语义分析主题模型的个性化标签推荐算法,实现了具有潜在语义关系标签间的快速关联与检索。提出了并行化深层网查询接口聚类集成方法,解决了深层网搜索的查询接口分类及结果聚合问题。针对传统的单机的深层网查询处理方式在处理海量数据时遇到的瓶颈问题,实现了基于Hadoop的深层网快速索引构建与智能搜索方法。建立基于社会性标注和本体的深层网语义搜索评价指标,通过给出基于并行计算模型的实体匹配方法很好地解决了搜索结果排序准确性的客观评价问题。课题组已完成研究计划中的工作。发表论文29篇(其中,EI检索12篇,ISTP检索1篇,中文核心11篇),公开发明专利6项,获得软件著作权4件,开发深层网络数据采集系统、基于社会性标注和本体的语义搜索系统各1套。在项目关键技术攻关的基础上,为桂林恒宇软件公司构建了面向桂林旅游的深层网并行搜索系统,为“掌握桂林”手机智能搜索提供后台支撑。将社会性标注及本体引入到深层网搜索领域,解决了目前的深层网搜索方法在数据源准确聚焦、查询语义扩展、资源聚合等方面存在的困难,为寻求深层网搜索理论和方法上的突破,建立具有适用性和实用性的基于社会性标注及本体的深层网语义搜索模型及原型系统,提高深层网搜索性能,具有重要的科学及现实意义。