当前在WEB、生物信息等应用中经常需要面临大规模图数据的处理问题,由于其数据规模非常庞大,需要在分布式平台上进行计算,而云计算平台恰恰提供了一个稳定的、具有可扩展性的分布式计算平台。项目将以研究基于云计算平台的图数据处理系统的实现技术为目标,针对云计算平台的特点和计算模式,从支撑平台技术、基于云计算平台的图数据处理技术及在基因序列拼接、社会媒体数据管理的应用三个层次展开研究。重点研究大规模图数据的快速分割算法、多语义层次图数据建模方法、面向图数据处理流程的模块重要性分析方法、云平台上的分布式图索引结构、基于云计算平台的社团分析算法、富内容节点网络的管理方法等方面的问题,力求形成突破。争取在国内外重要学术刊物上发表20篇高质量学术论文; 培养博士生2名,硕士生4名;并申请专利两项。项目具有一定的实践意义和理论意义。
graph data;Cloud platform;Partition;graph query;social network
随着大数据时代的到来,图数据的处理成为数据库领域的关键技术。本项目针对大规模图数据的处理问题,从云计算平台、图数据处理方法以及应用三个层次上展开研究。在面向图数据处理的云计算平台方面主要针对图数据处理的过程中需要处理的图分割问题进行了研究。项目针对Map/Reduce计算框架,提出了基于多级标签传播的图数据分割算法,该算法可以实现对千万级节点的高效划分。同时还提出了一种基于动态的图分割算法,该方法通过不断调整边和节点的位置实现图分割中的平衡。在图数据处理方法层面,项目提出了新的社团搜索的模型和高效的可重叠社团搜索算法,实验表明算法具有较好的性能。同时还基于图分割算法研究了PageRank算法的实现方法,由于实现的数据的分布,所以算法具有较高的效率。在应用层面,项目结合实际的数据研究了图数据分析在生物数据检索和社交网络构建中的应用方法。围绕项目的研究,在SIGMOD、VLDB等学术会议上发表了18篇高水平论文,并培养的12名硕士研究生和8名博士研究生。本项目的部分研究成果获得了教育部自然科学二等奖。