随着WWW的迅速膨胀和Internet的普遍应用,访问Web已成为人们获取信息的重要手段。XML数据规范是当今Web上信息表示与交换的标准,大量的异构数据因而也就集成在XML文档中。由于当前Web的用户群已由过去的少量专业人员扩展到大量普通用户,他们对XML文档的结构和内容并不了解,并且查询意图本身通常也是模糊或不精确的,因而导致了用户很难从XML文档中获取完备、有效的信息。因此,满足大量普通用户即时需求的个性化柔性信息查询正成为当前XML数据查询技术的研究热点。本项目针对当前XML数据查询中亟待解决的不精确查询、信息过载和关键字近似查询等问题,从满足普通用户个性化柔性查询需求角度入手,对用户偏好的表示与处理、自适应查询松弛、查询结果排序与分类以及关键字近似查询等方面进行研究,目标是构建功能强大且完备的XML数据个性化柔性查询框架并提供相应的实现技术,从而改善现有的XML数据查询技术。
XML;Preference;Personalzied flexible query;Ranking and categorization;Coupled relationship
随着WWW的迅速膨胀和Internet的普遍应用,访问Web已成为人们获取信息的重要手段。XML是当今Web上信息表示与交换的标准,大量的异构数据因而也就集成在XML文档中。由于使用Web的大量普通用户对XML文档的结构和内容并不了解,并且查询意图本身通常也是模糊或不精确的,因而导致他们很难从XML文档中获取完备有效的信息。本项目针对当前XML数据查询中亟待解决的不精确查询、信息过载和关键字近似查询等问题,从满足普通用户个性化柔性查询需求入手,对用户偏好的表示与处理、自适应查询松弛、查询结果排序与分类以及关键字语义近似查询等方面进行研究,取得了一系列创新性研究成果,其中关键性成果包括(1)构建了上下文条件偏好模型,该模型结合了定性偏好和定量偏好表示的优点,并考虑了产生偏好的上下文条件,能够表达出用户在特定上下文条件下的偏好选择与程度;(2)提出了XML数据近似函数依赖关系挖掘和文本值之间的语义相似度评估方法,进而提出了XML近似查询方法,该方法的基本思想是依据近似函数依赖关系得出的属性单元重要程度,在最不重要的属性单元上最先松弛并且松弛程度最大,从而确保返回最贴近用户需求的近似查询结果;(3)提出了基于上下文条件偏好的查询结果Top-k排序方法,该方法依据用户偏好构建打分函数并利用TA算法实现Top-k结果选取,其特点是无需计算所有候选结果的排序分数就能快速返回前k个具有最大排序分数的结果;(4)提出了查询结果个性化分类方法,该方法利用改进的决策树算法实现查询结果的个性化分类,使得用户能够通过最小的搜索代价就能够找到满足其需求和偏好的结果;上述排序和分类方法是解决XML数据查询中信息过载问题的两种互补方法;(5)提出了XML关键字查询中的耦合关系(Coupled relationship)评估方法,该方法利用同现频率和关联关系来评估不同查询关键字以及不同关键字查询之间的耦合关系,提高了XML关键字语义近似查询的查全率和准确率。在上述技术方法基础上,该项目构建了XML数据个性化柔性查询框架并提供了相应的实现方法,该框架与方法既可作为一个应用层独立运行又可集成在任何现有的XML查询框架中来支持个性化柔性查询服务,本项目为改善现有的XML查询技术并为构建新一代智能高效的大数据分析与检索系统奠定了基础。