XML数据个性化柔性查询关键技术的研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

XML数据个性化柔性查询关键技术的研究

项目名称：XML数据个性化柔性查询关键技术的研究
项目类别：青年科学基金项目
批准号：61003162
申请代码：F020509
项目来源：国家自然科学基金
研究期限：2011-01-01-2013-12-31

项目负责人：孟祥福
负责人职称：副教授
依托单位：辽宁工程技术大学
批准年度：2010

中文摘要：

随着WWW的迅速膨胀和Internet的普遍应用，访问Web已成为人们获取信息的重要手段。XML数据规范是当今Web上信息表示与交换的标准，大量的异构数据因而也就集成在XML文档中。由于当前Web的用户群已由过去的少量专业人员扩展到大量普通用户，他们对XML文档的结构和内容并不了解，并且查询意图本身通常也是模糊或不精确的，因而导致了用户很难从XML文档中获取完备、有效的信息。因此，满足大量普通用户即时需求的个性化柔性信息查询正成为当前XML数据查询技术的研究热点。本项目针对当前XML数据查询中亟待解决的不精确查询、信息过载和关键字近似查询等问题，从满足普通用户个性化柔性查询需求角度入手，对用户偏好的表示与处理、自适应查询松弛、查询结果排序与分类以及关键字近似查询等方面进行研究，目标是构建功能强大且完备的XML数据个性化柔性查询框架并提供相应的实现技术，从而改善现有的XML数据查询技术。

中文主题词： XML；偏好；个性化柔性查询；top-k排序与分类；耦合关系

英文摘要：

XML；Preference；Personalzied flexible query；Ranking and categorization；Coupled relationship

英文主题词： XML；Preference；Personalzied flexible query；Ranking and categorization；Coupled relationship

结论摘要：

随着WWW的迅速膨胀和Internet的普遍应用，访问Web已成为人们获取信息的重要手段。XML是当今Web上信息表示与交换的标准，大量的异构数据因而也就集成在XML文档中。由于使用Web的大量普通用户对XML文档的结构和内容并不了解，并且查询意图本身通常也是模糊或不精确的，因而导致他们很难从XML文档中获取完备有效的信息。本项目针对当前XML数据查询中亟待解决的不精确查询、信息过载和关键字近似查询等问题，从满足普通用户个性化柔性查询需求入手，对用户偏好的表示与处理、自适应查询松弛、查询结果排序与分类以及关键字语义近似查询等方面进行研究，取得了一系列创新性研究成果，其中关键性成果包括（1）构建了上下文条件偏好模型，该模型结合了定性偏好和定量偏好表示的优点，并考虑了产生偏好的上下文条件，能够表达出用户在特定上下文条件下的偏好选择与程度；（2）提出了XML数据近似函数依赖关系挖掘和文本值之间的语义相似度评估方法，进而提出了XML近似查询方法，该方法的基本思想是依据近似函数依赖关系得出的属性单元重要程度，在最不重要的属性单元上最先松弛并且松弛程度最大，从而确保返回最贴近用户需求的近似查询结果；（3）提出了基于上下文条件偏好的查询结果Top-k排序方法，该方法依据用户偏好构建打分函数并利用TA算法实现Top-k结果选取，其特点是无需计算所有候选结果的排序分数就能快速返回前k个具有最大排序分数的结果；（4）提出了查询结果个性化分类方法，该方法利用改进的决策树算法实现查询结果的个性化分类，使得用户能够通过最小的搜索代价就能够找到满足其需求和偏好的结果；上述排序和分类方法是解决XML数据查询中信息过载问题的两种互补方法；（5）提出了XML关键字查询中的耦合关系（Coupled relationship）评估方法，该方法利用同现频率和关联关系来评估不同查询关键字以及不同关键字查询之间的耦合关系，提高了XML关键字语义近似查询的查全率和准确率。在上述技术方法基础上，该项目构建了XML数据个性化柔性查询框架并提供了相应的实现方法，该框架与方法既可作为一个应用层独立运行又可集成在任何现有的XML查询框架中来支持个性化柔性查询服务，本项目为改善现有的XML查询技术并为构建新一代智能高效的大数据分析与检索系统奠定了基础。

成果综合统计