随着数据规范组织与互联的需要,RDF数据量在迅速增长,与之相伴随的RDF数据元信息,即标注RDF数据规模同样在快速增加,亟待有效管理。目前标注RDF数据的管理通常基于RDF的数据模型,并沿用其存储技术,未能有效考虑标注RDF数据的特征。这导致数据模型的灵活性不好,表达能力弱。采用RDF数据的存储技术来管理标注RDF数据可扩展性差,消耗的存储空间膨胀,性能低,当存储大规模数据时问题尤为突出。针对大规模标注RDF数据管理问题,本项目首先研究基于多部图的标注RDF数据模型、其矩阵表示和变换运算。为存储大规模标注RDF数据,研究标注RDF数据的存储结构及标注RDF数据划分;研究标注RDF数据的压缩技术以提高存储效率;研究标注RDF数据的索引选取及构建技术以便于高效查询及推理。本项目研究形成的有关刻画标注RDF数据的模型、大规模标注RDF存储结构将为大规模标注RDF数据管理提供支持。
RDF;Annotated RDF;Query processing;Data compression;Indexing
随着数据规范组织与互联的需要,RDF 数据量在迅速增长,与之相伴随的RDF 数据元信息,即标注RDF 数据规模同样在快速增加,亟待有效管理。围绕申请内容,本课题研究了标注RDF数据模型、可扩展的标注RDF数据存储结构、标注RDF数据压缩技术以及标注RDF数据索引技术。按照要求完成了每年的研究计划,并在本课题的基础上增加了一些相关前沿研究工作,如研究(标注)RDF数据的查询处理技术、研究信息抽取技术及示范应用等。针对研究内容,1)提出了基于多部图的标注RDF 数据模型、其矩阵表示和变换运算。该模型可统一表达标注RDF数据和RDF数据,为统一处理RDF数据及其标注数据提供了理论基础。2)为了降低存储数据所占用空间,提出了URI压缩技术、变长ID编码、列压缩及增量压缩等方法。3)基于标注RDF数据模型,设计了支持RDF和标注RDF数据的统一存储方法以及紧凑的存储结构。该存储方法通用且易于管理,克服了国际上主流RDF存储结构中存储多份数据所带来的存储空间浪费、访问低效等缺陷。4)提出了ID-Chunk和ID-Predicate两种索引方法来加速数据块的定位和谓词未知的查询处理。5)为有效处理查询,提出了动态的查询计划生成方法及块式Pipeline查询执行方法执行以提高查询执行速度。6)本研究研发了可统一存储RDF数据及其标注数据的存储系统TripleBit。与目前国际上著名的RDF数据存储系统RDF-3X、BitMat和MonetDB在多个测试集LUBM、UniProt和BTC2012上进行对比测试。结果表明,在存储空间上比RDF-3X至少降低了40%。在查询性能上比对比系统提高了几倍。研究成果发表在计算机学会所制定的“数据库、数据挖掘与内容检索”领域A类会议VLDB 2013和B类期刊Knowledge and Information Systems等上。所研发的系统TripleBit已于网上开源(http://grid.hust.edu.cn/triplebit),供学术同行共享及评价。