面向复杂数据的生成器模式发现及其应用研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

面向复杂数据的生成器模式发现及其应用研究

项目名称：面向复杂数据的生成器模式发现及其应用研究
项目类别：面上项目
批准号：60873171
申请代码：F020509
项目来源：国家自然科学基金
研究期限：2009-01-01-2011-12-31

项目负责人：王建勇
负责人职称：研究员
依托单位：清华大学
批准年度：2008

中文摘要：

传统的频繁模式发现算法主要用于从给定的数据库中挖掘所有的频繁模式或闭合模式，而不能够用于生成器模式的发现。一个等价类中生成器模式的平均长度通常小于该等价类中所有频繁模式的平均长度，更小于该等价类中所有闭合模式的平均长度。在面向分类的应用中，根据最小描述长度原则可知对生成器模式的挖掘比频繁模式和闭合模式的挖掘更有意义。本项目将重点研究面向复杂数据（如序列数据和图数据）的生成器模式挖掘算法，并探讨生成器模式在病句检测、机器翻译、舆情分析和图像分类中的应用。由于存在"组合爆炸"问题，从复杂数据中挖掘生成器模式具有很高的计算复杂性。本项目的挑战性问题之一是如何设计高效的空间裁减策略和模式枚举框架以提高序列生成器模式和图生成器模式的挖掘效率。另外，如何定义可用于分类的、高质量的序列生成器模式和图生成器模式，以及设计可直接挖掘这类模式的高效算法并依此建立分类模型是本项目的另外一个重点研究内容。

中文主题词：生成器模式；复杂数据；数据挖掘；模式发现

成果综合统计