本项目重点研究了两项内容。一是针对大规模、高密度的图数据库研究如何高效地挖掘具有闭合完全连通子图(或准完全连通子图)这一类具有特殊拓扑结构的频繁子图并探讨其应用;二是针对目前频繁子图在图数据分类上的应用,研究如何从图数据库中直接把可用于分类的高质量的频繁子图挖掘出来以提高算法的效率并构建高精度的分类模型。本项目先后提出了一个闭合完全连通子图挖掘算法CLAN、一个闭合准完全连通子图挖掘算法Cocain、一个核外准完全连通子图挖掘算法Cocain*、一个直接挖掘可用于图分类的对比子图模式的算法MDGP-Mine和一个直接挖掘高可信度的线形子结构子图模式的算法。所开发的CLAN和Cocain两个算法软件包已被来自美国、印度和新加坡等国的国际同行多次索要。所提出的算法可以广泛应用于基因功能标注、股票数据分析、化合物结构分类、图像分类等领域。相应的成果发表于ACM TODS、IEEE TKDE等国际顶级期刊、以及ACM SIGKDD、IEEE ICDE、EDBT、IEEE IPDPS等国际一流学术会议。据Google scholar统计,标注本项目资助的论文已被引用超过30次。
英文主题词Data Mining; Closed Subgraph; Clique; Quasi-clique; Graph Classification