海量Web数据管理与搜索面临着计算、存储、实时性等多方面的问题。并行计算是解决这些问题的有效途径,然而传统的并行计算昂贵且难以扩展。基于云计算环境的Web数据管理与搜索可以按需获取计算力、存储空间,且即用即释,动态扩展,经济高效,为Web数据管理与搜索提供了新的平台。为此,本课题研究1)构建海量Web数据的高效索引机制,使云计算系统能够在负载平衡和查询效率之间取得平衡,从而提高系统的总体性能;2)研究基于分布式文件系统的Web数据存储体系,确保Web数据存取的高吞吐量、高可靠性、可伸缩性;3)在云计算环境下,研究基于Mapreduce的并行化计算技术,拟采用的"客户端- - 任务调度与执行- - 数据存储层"三层架构的海量Web数据并行处理结构,将有效的提升云计算环境中的并行计算能力;4)研究在云计算平台上的并行Web数据自动采集机制。
Cloud Computation;Web data management;Information Retrieval;Distributed Index;
首先建立一种云计算环境下管理海量Web 数据的索引框架,并给出数据存取机制和索引切分策略。考虑到云计算节点之间数据存储的协同要求,将索引分为上下两个层次,上层为全局索引,下层为局部索引。接着对在云计算环境下,基于Mapreduce 的并行化计算技术和高可靠、可伸缩的Web 数据存储体系进行研究,以确保Web 信息的高效处理。最后,研究在云计算平台上的并行Web 数据自动采集机制。 针对云计算环境下分布式存储系统的数据索引不支持复杂查询的问题,提出了一种多维数据索引机制M-Index,采用金字塔技术将数据的多维元数据描述成一维索引,在此基础上提出前缀二叉树的概念,通过提取一维索引和PBT有效节点的前缀作为数据在存储系统中的主键。数据根据主键和一致性Hash机制发布到存储节点组成的覆盖网络。设计了基于M-Index的数据查询算法,将复杂查询请求转换成一维查询键值,有效支持多维查询和区间查询等复杂查询模式。理论分析和实验表明,M-Index在复杂查询模式下具有良好的查询效率和负载均衡。 在MapReduce 模型的基础上,建立一种并发处理海量Web 数据的更通用、更可扩展的并行化计算环境。 首先,构建一个客户端--任务调度与执行层-- 数据存储层三层架构的海量Web 数据并发处理结构。在客户端,通过可配置的XML 文档提交用户任务。在进行任务调度与执行层设计时,将采用了几个关键的策略,如通用平台策略、负载均衡策略、中间结果处理策略和容错策略。接着,将采用主控节点--分派节点--服务节点的三点式架构。其中,主控节点负责收集与处理其他节点的各种信息;分派节点负责解析、分派任务,获取任务执行结果;服务节点负责任务的具体执行。三种节点互相配合,共同完成数据的并行处理。最后,在搭建的平台上,将进行若干测试系统性能的实验。通过单机与并发执行用户任务的对比实验,评价并行计算平台的效率;通过执行不同类型的任务,说明如何在集群规模一定的情况下,实现性能调优。