位置:立项数据库 > 立项详情页
频繁子图的高效挖掘算法及其应用研究
  • 项目名称:频繁子图的高效挖掘算法及其应用研究
  • 项目类别:面上项目
  • 批准号:60573061
  • 申请代码:F020509
  • 项目来源:国家自然科学基金
  • 研究期限:2006-01-01-2008-12-31
  • 项目负责人:王建勇
  • 负责人职称:副研究员
  • 依托单位:清华大学
  • 批准年度:2005
中文摘要:

本项目重点研究了两项内容。一是针对大规模、高密度的图数据库研究如何高效地挖掘具有闭合完全连通子图(或准完全连通子图)这一类具有特殊拓扑结构的频繁子图并探讨其应用;二是针对目前频繁子图在图数据分类上的应用,研究如何从图数据库中直接把可用于分类的高质量的频繁子图挖掘出来以提高算法的效率并构建高精度的分类模型。本项目先后提出了一个闭合完全连通子图挖掘算法CLAN、一个闭合准完全连通子图挖掘算法Cocain、一个核外准完全连通子图挖掘算法Cocain*、一个直接挖掘可用于图分类的对比子图模式的算法MDGP-Mine和一个直接挖掘高可信度的线形子结构子图模式的算法。所开发的CLAN和Cocain两个算法软件包已被来自美国、印度和新加坡等国的国际同行多次索要。所提出的算法可以广泛应用于基因功能标注、股票数据分析、化合物结构分类、图像分类等领域。相应的成果发表于ACM TODS、IEEE TKDE等国际顶级期刊、以及ACM SIGKDD、IEEE ICDE、EDBT、IEEE IPDPS等国际一流学术会议。据Google scholar统计,标注本项目资助的论文已被引用超过30次。

结论摘要:

英文主题词Data Mining; Closed Subgraph; Clique; Quasi-clique; Graph Classification


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 2
  • 7
  • 0
  • 0
  • 0
相关项目
期刊论文 14 会议论文 1 专利 4 著作 2
期刊论文 62 会议论文 79 著作 3
王建勇的项目