面对迅猛增长、动态性强、随机更新的海量数据,索引实时更新、动态调节与在线检索性能的不足日益凸显。项目将结合申请人在基于倒排索引的信息检索关键技术方面的前期研究工作和该学科的最新成果,针对在线数据更新的随机性与动态性导致索引更新性能与系统检索性能急剧恶化的问题,探索影响在线动态倒排索引更新性能的关键因素,揭示索引更新性能与长短列表数量及其存储模式、索引结构、更新策略之间的内在关系,重点研究时空高效的在线动态倒排索引混合更新技术,包括基于Zipf定律的长短列表数量预测模型;基于链表区分长短列表的统一存储模型;基于历史分配空间的自适应学习与分块均匀性规则的长短列表空间管理机制;基于随机访问分块倒排文件自索引的立即合并与上限Y相邻多路合并混合更新机制。取得原创性的科研成果,为实现基于倒排索引的海量数据在线动态更新技术提供科学依据。本课题对进一步研究高性能海量数据管理与维护技术有着重要意义。
Inverted index;index update;information retrieval;data management;
结合申请人在基于倒排索引的信息检索关键技术方面的前期研究工作和该学科的最新成果,针对在线数据更新的随机性与动态性导致索引更新性能与系统检索性能急剧恶化的问题,探索影响在线动态倒排索引更新性能的关键因素,重点研究了时空高效的在线动态倒排索引混合更新技术,同时对无线传感器网络中的数据管理机制等进行了初步研究,取得了一系列的研究成果。主要工作包括(1)对影响倒排索引在线动态更新性能的因素进行了深入分析。基于Zipf分布定律,通过理论分析对长短列表数量分布进行了合理估计,并给出了长、短列表数量计算的数学表达式。通过对实际应用系统中数据信息动态性与随机性的有效刻画,实现了长短列表增量的有效近似预测。(2)对短列表空间管理机制进行了深入研究。采用索引连续分块技术,实现了基于线性增长、指数增长、分块均匀性规则对短列表空间进行管理;将连续的物理空间,按照一定大小分割成字节数相等的若干部分。(3)对长列表空间管理机制进行了研究。考虑到网络中长短列表数据分布的差异性,长列表采用动态预分配空间的链表结构来存储;考虑到长列表所占空间大、在物理上分配非连续的物理空间、其大小差异性大的特征,动态更新所需要的空间进行动态预留剩余空间,尽可能减少动态更新过程中产生的磁盘读写操作次数。(4)提出了基于链表区分长短列表的统一存储模型。对两种列表都采用链表的形式来管理,对于短列表采用索引连续分块技术来存储;对于长列表采用动态预分配空间的链表结构来存储,尽可能减少动态更新过程中产生的磁盘读写操作次数。(5)提出了一种基于分配空间自学习的在线动态索引混合更新机制。在理论分析与统一存储模型的基础上,根据长短列表增量数据的各自特点,动态分配相应的空间,实现长短列表空间的有效管理以提高空间性能。采用基于历史分配空间的自适应学习机制,实现预留空间的有效估计,在减少空间消耗的同时兼顾长列表索引更新与查询性能。(6)对无线传感器网络中的数据管理机制进行了初步研究,提出了紧凑数据索引存储技术、时延有效的可靠备份路由协议等。相关成果在国内外学术期刊上发表(录用)学术论文6篇,其中SCI论文3篇,EI论文3篇,获软件著作权2项;与合作单位联合培养博士研究生1名,硕士研究生2名。本课题的研究对进一步研究高效的大数据管理技术具有重要意义。