反馈是提升检索结果质量的一种重要机制。本项目围绕基于反馈的XML信息检索技术进行研究。研究内容①XML检索结果聚类;②XML结构语义获取;③XML检索结果排序;④基于反馈的XML查询扩展;⑤高维数据空间降维和不确定数据管理等技术。重要成果①提出了一种基于混合相似度的XML检索结果聚类方法和"簇内频率-逆簇频率"的簇标签抽取方法;②提出了一种基于主题概括强度的XML结点(标签)语义权重模型,它能够有效地利用数据集自动设置各结点的权重;③提出了一种内容检索为主、结构匹配为辅的处理CAS查询的新思路和计算检索结果相关性的方法,它更符合CAS检索要求;④基于相关反馈和伪反馈分别提出了一种有效的的查询扩展方法,形成"内容+结构"的查询扩展表达式,更准确地反映了用户查询意图;⑤提出了用于维数约简的一般代价模型和不确定数据上的一种新的Top-k查询语义及其算法。深刻认识①相关反馈和伪反馈对于提升XML检索结果的质量具有明显效果;②XML信息检索应充分获取XML文档的结构语义;③XML信息检索的关键在于如何有效地利用XML结构信息。
英文主题词XML retrieval; feedback; clustering; semantics; query expansion