传统的数据挖掘算法只是在单一表中寻找模式,而关系数据库中通常都含有多个表。关系数据挖掘的目标就是直接对存储在多个表中的数据直接进行挖掘。本课题主要研究对多个关系表中的数据直接挖掘的理论和方法。重点做了以下几个方面的研究工作通过主、外键之间的联系,将涉及到的关系表分为背景知识表、关键表和目标表,基于ID传播把背景知识表和关键表虚拟连接生成目标表。首先,将贝叶斯理论、BP神经网络和决策树方法引入关系数据挖掘中,提出了新的分类算法。其次,引入算子的概念,提出了以数据之间的相似度进行模式聚类的新方法和层次聚类的算法。第三,对关系数据关联规则进行了研究,提出了用户指导的关联规则生成算法。最后,以社会网络的合著关系为基础,以离散图序列形式来动态表示,提出混合链接预测算法。对图挖掘理论进行了深入研究,提出新的图索引方法和频繁闭图兄弟剪枝策略算法。
英文主题词relational data mining; classfication;patterned clustering;linking prediction;graph mining