数据流模糊关键字查询处理技术研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

数据流模糊关键字查询处理技术研究

项目名称：数据流模糊关键字查询处理技术研究
项目类别：青年科学基金项目
批准号：60903047
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2010-01-01-2012-12-31

项目负责人：王伟平
负责人职称：副研究员
依托单位：中国科学院计算技术研究所
批准年度：2009

中文摘要：

数据流模糊关键字查询在信息内容安全、垃圾邮件过滤、实时新闻的订阅和发布等领域有着很好的应用前景。本项目拟对数据流模糊关键字查询处理问题进行深入研究。在符合应用需求的前提下，以最小化时间和空间复杂性和最优化查询结果质量为目标，提出一整套适合于数据流特点的模糊关键字查询处理的理论和技术。我们将提出适用于数据流的模糊关键字匹配的索引结构，探索高效的模糊关键字连续查询匹配算法和即时查询匹配算法。研究高质量的查询结果生成算法和高效率的查询处理算法，基于相似性距离、查询结果的生命周期、查询结果出现的频率等多元信息，研究查询结果的评价模型和评分算法，提出适用于数据流模糊关键字查询的负载脱落算法。并基于上述阶段性研究成果，开发数据流模糊关键字查询处理的原型系统。

中文主题词：数据流；关键字查询；分布式存储；并行查询处理；

英文摘要：

data stream；key words seach；distribute storage；parallel query procesing；

英文主题词： data stream；key words seach；distribute storage；parallel query procesing；

结论摘要：

海量数据流模糊关键字查询处理技术在信息内容安全、垃圾邮件过滤、商业智能分析领域有着很好的应用前景。我们针对数据流模糊关键字查询处理技术开展了深入的研究工作，取得了一系列的研究成果。首先，针对数据流实时模糊关键字查询处理问题，提出了一种基于滑动窗口的数据流模糊关键字查询的处理框架CSSQ，通过将滑动窗口组织成多个基本窗口，在每个基本窗口上创建高效的索引结构，有效地降低滑动窗口更新带来的索引重建代价。同时，提出了两种预裁剪筛选算法PPF和流计数筛选算法CFS，避免了多数不必要的文本相似性计算，有效提高了数据流模糊关键字查询处理的效率。其次，针对数据流历史数据的查询处理问题，开展了海量流数据存储技术和分布式查询处理技术的研究。在海量流数据的存储方面，设计并实现了一个面向海量流数据存储的分布式文件系统Clover。该系统采用基于目录划分和一致哈希映射的名字空间管理方法，解决了元数据扩展性问题；通过改进的两阶段提交协议，保证了多元数据服务器下分布式元数据操作的一致性；提出了基于共享存储池的高可用机制，通过建立模型分析了该机制下文件系统的可靠性。在海量流数据的数据组织方面，提出了适用于数据流历史数据存储的数据组织结构，利用列簇存储与块级索引技术，实现了流数据的快速加载和高效查询。提出了一种基于Hadoop的并行连接查询处理算法CHMJ。CHMJ设计了多副本一致性哈希算法，将具有连接关系的表根据其连接属性的哈希值在机群中进行分布，提升了连接查询处理的数据本地性，同时保证了系统的可用性。基于多副本一致性哈希数据分布，提出了HashMapJoin并行连接查询处理算法，有效地提高了Hadoop平台上连接查询的处理效率。相关研究成果发表在Ad hoc Network、IEEE Cluster等国际一流的期刊、会议上，部分研究成果还应用在腾讯分布式数据仓库TDW系统中，收到了良好的社会效益和经济效益。

成果综合统计