关联分析是数据挖掘这一新兴交叉学科的核心领域。其从大规模复杂数据中寻找关联模式,并应用于商务智能、信息安全、计算机网络、生物医学、地理信息等众多重要领域。研究表明,传统的关联分析由于依赖"支持度-置信度"框架,容易产生大量无价值甚至错误的关联模式。而利用兴趣度指标对关联模式进行后评价,也无法根本解决计算成本过高的问题。有鉴于此,本项目研究真正有价值的关联模式即"价值模式"的挖掘问题,其核心在于把兴趣度指标融入价值模式的挖掘过程中,其难点在于解决指标因缺乏反单调性而无法实现遍历空间剪枝的问题。具体而言,本项目首先将从众多兴趣度指标中筛选出性能优良的指标,然后针对指标设计通用的价值模式挖掘算法,最后将该算法固化到价值模式挖掘系统中,并应用于移动商务推荐、搜索推荐及广告投放、突发事件监测等重要热点领域。本项目的研究有望对关联分析的理论和应用实践提供重要的补充和推动作用。
interesting pattern discovery;cluster analysis;social media;big data analytics;
由于问题的普遍性和复杂性,从大数据中寻找价值模式(interesting pattern),并将之应用于商务智能、信息安全、计算机网络、生物医学、地理信息等众多实践领域,已经成为大数据分析的核心任务之一。课题组在历时四年的研究中,秉持“顶天立地”的原则,不仅积极发表具有国际顶尖水平的价值模式挖掘理论成果,而且大力开展产学研建设以将理论成果转化为社会舆情管理的重要助力。课题组取得的学术贡献包括(1)在“局部价值模式挖掘”领域,第一次清晰指出了传统“支持度—置信度”框架的缺陷;通过证明余弦(cosine)乃至泛化的广义均值(generalized mean)具有新颖的“条件反单调性”,提出了基于余弦的价值模式挖掘算法,以及基于广义均值的价值模式挖掘一般性框架,并将挖掘算法推广至分布式计算环境,从根本上解决了大数据计算问题;通过将价值模式成功应用于噪声图像过滤、社交网络群体抽取、冷门产品推荐等问题,证明了其优越性及乐观的产业化前景。(2)在“全局价值模式挖掘”领域,针对聚类分析中使用最广的K-均值算法,从泛化理论、算法分析、算法设计、客观评价、组合聚类等方面进行了全面而深入的研究,形成了一套完整的成果体系,奠定了课题组在该领域的国际影响力。(3)在新兴的“社会化媒体大数据挖掘”领域,以上述价值模式挖掘技术为基础,围绕社会事件分析、用户情感分析、信息传播分析、潜在欺诈检测等热点问题,开展了大规模的理论与应用研究,理论价值与社会经济效益均显著。截至2016年1月18日,课题组已发表(含接收)共34篇标注课题资助的学术论著,其中包括1本Springer出版英文专著、21篇SCI检索论文(含6篇IEEE Trans.论文)、11篇数据挖掘顶级会议论文(含2篇KDD和4篇ICDM论文)。形成了一批面向社会化媒体大数据的实践应用成果,其中包括11项国家发明专利申请(1项已获批)、2项获批软件著作权(已技术入股某创业公司)、为工信部某中心构建的“社会舆情分析与管理”平台、为国安部某局构建的“台湾选情预测平台”等。项目负责人依托本课题支持,成长为NSFC优青,并主持了NSFC重点项目、科技部863项目、工信部信息安全项目等国家级课题,在日渐频繁的国际、国内交流合作中,逐步成长为社会化媒体大数据分析领域的重要研究力量。