本课题针对目前基于关键字的XML信息搜索技术所面临的关键问题,根据XML数据的结构和语义特点,在分析用户信息需求的基础上,提出一套合理的用户可以普遍接受的判断XML元素与信息需求语义相关的标准,然后在此框架内研究可以实现高效Top-k查找的方法。集中研究了包括用户信息需求分析、XML元素与关键字语义相关的判断标准、XML元素与信息需求的相关性,以及XML元素重要性的排序评估方法、基于关键字的Top-k排序查找方法。此外对这些问题进行扩展,研究了针对XML数据的分类算法,提出了基于关键字语义和基于频繁标签序列的XML分类/聚类算法,并研究了图结构XML数据上基于语义的关键字查询方法,有力地支持了基于关键字的XML信息搜索技术。同时本课题研制了基于关键字的XML信息搜索引擎的原型系统,为普通用户和研究人员提供了较好的信息搜索及研究平台。本课题的研究成果在互联网信息检索领域有广阔的应用前景。
英文主题词Information Retrieval; XML Keyword Search; Topic Matching; Semantic Relevance; Top-K Query