数据流模糊关键字查询在信息内容安全、垃圾邮件过滤、实时新闻的订阅和发布等领域有着很好的应用前景。本项目拟对数据流模糊关键字查询处理问题进行深入研究。在符合应用需求的前提下,以最小化时间和空间复杂性和最优化查询结果质量为目标,提出一整套适合于数据流特点的模糊关键字查询处理的理论和技术。我们将提出适用于数据流的模糊关键字匹配的索引结构,探索高效的模糊关键字连续查询匹配算法和即时查询匹配算法。研究高质量的查询结果生成算法和高效率的查询处理算法,基于相似性距离、查询结果的生命周期、查询结果出现的频率等多元信息,研究查询结果的评价模型和评分算法,提出适用于数据流模糊关键字查询的负载脱落算法。并基于上述阶段性研究成果,开发数据流模糊关键字查询处理的原型系统。
data stream;key words seach;distribute storage;parallel query procesing;
海量数据流模糊关键字查询处理技术在信息内容安全、垃圾邮件过滤、商业智能分析领域有着很好的应用前景。我们针对数据流模糊关键字查询处理技术开展了深入的研究工作,取得了一系列的研究成果。首先,针对数据流实时模糊关键字查询处理问题,提出了一种基于滑动窗口的数据流模糊关键字查询的处理框架CSSQ,通过将滑动窗口组织成多个基本窗口,在每个基本窗口上创建高效的索引结构,有效地降低滑动窗口更新带来的索引重建代价。同时,提出了两种预裁剪筛选算法PPF和流计数筛选算法CFS,避免了多数不必要的文本相似性计算,有效提高了数据流模糊关键字查询处理的效率。其次,针对数据流历史数据的查询处理问题,开展了海量流数据存储技术和分布式查询处理技术的研究。在海量流数据的存储方面,设计并实现了一个面向海量流数据存储的分布式文件系统Clover。该系统采用基于目录划分和一致哈希映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过建立模型分析了该机制下文件系统的可靠性。在海量流数据的数据组织方面,提出了适用于数据流历史数据存储的数据组织结构,利用列簇存储与块级索引技术,实现了流数据的快速加载和高效查询。提出了一种基于Hadoop的并行连接查询处理算法CHMJ。CHMJ设计了多副本一致性哈希算法,将具有连接关系的表根据其连接属性的哈希值在机群中进行分布,提升了连接查询处理的数据本地性,同时保证了系统的可用性。基于多副本一致性哈希数据分布,提出了HashMapJoin并行连接查询处理算法,有效地提高了Hadoop平台上连接查询的处理效率。相关研究成果发表在Ad hoc Network、IEEE Cluster等国际一流的期刊、会议上,部分研究成果还应用在腾讯分布式数据仓库TDW系统中,收到了良好的社会效益和经济效益。