现有的XML查询方法中,结构化查询可准确表达用户的查询意图,但其正确使用的前提条件之一是用户必须熟悉文档结构;关键字查询无需用户了解文档结构,但返回结果不够准确。从应用角度看,不同用户对查询语言和数据模式的了解程度大相径庭;从实现角度看,结构化查询和关键字查询的实现方法基于不同的存储、编码、索引及查询策略。为了支持各类用户的查询需求,在同一系统中同时实现不同查询机制,将耗费大量存储空间及维护代价。针对这一问题,本项目研究在"无需"假设用户是否熟悉文档结构的前提下,基于单一存储、编码、索引及查询算法,设计并实现有效、灵活的通用查询机制。该查询机制的特点可表述为若用户了解文档结构,则可使用结构化查询表达式准确表达查询意图;若用户不了解文档结构,则可通过关键字查询得到近似结果;最重要的是,若用户了解"部分"文档结构,同样可通过该查询机制将其有限的结构信息应用到查询表达式中对结果进行过滤。
关键字查询作为一种有效的数据查询手段,一直以来都是XML数据管理领域重点研究的问题。项目针对XML数据关键字查询所涉及的关键问题进行了深入研究,研究工作包括1.提出一种最优的静态路径编码存储策略;2.提出基于集合交操作的优化方法以加速结果计算过程;3.针对“公共祖先重复处理”、SLCA冗余计算等问题,分别给出自顶向下的处理策略和TDHS算法;4.提出将SLCA计算和构建结果子树相结合的方法;5.开发了XML数据关键字查询原型系统。以上成果分别发表在ICDE2012、SIGIR1011、DASFAA2012、JCST等国际会议和期刊上,申请软件著作权3项,初步解决了XML数据关键字查询的关键技术问题。项目研究工作进展顺利,达到预期研究目标,资助研究生7名,为进一步研究XML数据管理领域的其他问题奠定了坚实的基础。