传统的频繁模式发现算法主要用于从给定的数据库中挖掘所有的频繁模式或闭合模式,而不能够用于生成器模式的发现。一个等价类中生成器模式的平均长度通常小于该等价类中所有频繁模式的平均长度,更小于该等价类中所有闭合模式的平均长度。在面向分类的应用中,根据最小描述长度原则可知对生成器模式的挖掘比频繁模式和闭合模式的挖掘更有意义。本项目将重点研究面向复杂数据(如序列数据和图数据)的生成器模式挖掘算法,并探讨生成器模式在病句检测、机器翻译、舆情分析和图像分类中的应用。由于存在"组合爆炸"问题,从复杂数据中挖掘生成器模式具有很高的计算复杂性。本项目的挑战性问题之一是如何设计高效的空间裁减策略和模式枚举框架以提高序列生成器模式和图生成器模式的挖掘效率。另外,如何定义可用于分类的、高质量的序列生成器模式和图生成器模式,以及设计可直接挖掘这类模式的高效算法并依此建立分类模型是本项目的另外一个重点研究内容。