关系Top-N查询是数据库领域的前沿课题之一,比传统关系查询的应用更广泛、更灵活、功能更强大,能够解决现有数据库管理系统无法处理的查询问题。目前,针对数值属性的Top-N 查询,开始从中间件的研究深入到引擎层,其中如何处理非单调排序函数是有待解决的问题;关于文本属性的Top-N查询,寻求智能化处理方法和适用的排序函数仍是研究的重点问题。本项目主要研究内容(1)基于非单调排序函数,在引擎层讨论数值属性Top-N查询处理和优化的理论和技术方法;(2)针对中文文本属性,讨论适合中文关键词Top-N查询的处理方法和排序函数;(3)关于英文文本属性和数值属性,讨论能够处理自然语言语义的Top-N查询的智能化技术方法,融合分别处理两种属性的Top-N查询的技术和排序函数,得到能够同时处理两种属性的策略。本项目的研究将会促进关系Top-N查询的智能化发展和Web等诸多相关领域新技术的改进和发展。
relational database;top-N query;engine;ranking function;intelligence
Top-N 查询检索出不一定完全匹配却是最好地匹配查询条件的N个元组,并且按给定的排序函数对输出的结果进行排序。1990年代后期以来,Top-N查询倍受国内外学者关注,是数据库和信息检索等相关领域的前沿课题之一。在Top-N查询的研究中,一个关键问题是如何准确和快速地进行处理,因此需要研究查询处理的理论、方法、技术及优化。本项目主要研究内容如下 1. 针对数值属性用泛函分析的基本原理,解决n维赋范线性空间Top-N 查询处理。非单调排序函数的数值Top-N查询处理是一个挑战性问题,另外,“维数灾难”(通常 > 10维)是Top-N查询处理最具挑战性的悬而未决问题之一。围绕这两个挑战性问题,研究和设计基础算法,关注算法复杂度。针对Lp范数距离函数,提出技术方法解决Top-N 查询处理和优化。用各种数据集(从2到104维)对所提出的方法进行验证。实验结果表明提出的方法是有效的。 2. 针对中文文本属性的关键词排序查询处理。所提出的方法首先创建索引;其次构造适合的排序函数;最后,对于任一给定查询,创建候选元组生成链表、构造SQL查询语句、计算相似度, 返回Top-N排序结果。 3. 针对英文文本属性和数值属性的查询处理。用亲缘词对元组进行语义扩展词,定义语义距离,构建索引;融合Lp距离和语义距离函数得到新的距离函数,实现查询的智能化处理;得到Top-N排序结果。尤其是对排序函数的构造做了一定的努力。 4. 本项目的研究还涉及到网络新闻热点关键词排序;中文产品评论中的情感词、特征词与观点词抽取等内容。对于人工智能脑科学及其复杂网络模型的聚类和索引等也进行了相关研究。另外,对于英文文本属性,研究了推荐Top-N查询。 用大量的实验来验证所提出的理论和技术方法,实验结果表明它们是有效的。 本项目的研究将会促进关系Top-N查询的智能化处理及相关领域新技术的改进和发展。通过与国内外专家学者的学术交流使得许多教师和同学对相关课题有了深入的认识,拓展了知识面,有助于今后的学术研究。