位置:立项数据库 > 立项详情页
基于云计算的海量数据挖掘
  • 项目名称:基于云计算的海量数据挖掘
  • 项目类别:重点项目
  • 批准号:61035003
  • 申请代码:F030504
  • 项目来源:国家自然科学基金
  • 研究期限:2011-01-01-2014-12-31
  • 项目负责人:史忠植
  • 负责人职称:研究员
  • 依托单位:中国科学院计算技术研究所
  • 批准年度:2010
中文摘要:

本项目深入研究基于云计算的海量数据挖掘理论和关键技术(1)研究面向海量数据挖据的云计算模式,提出云计算与主体(agent)计算相结合的模式,提高云处理单元的自主性和协作性;(2)研究云计算模式下海量数据预处理的方法和算法,基于本体的语义特点,提出异构海量数据集成的方法;(3)研究云平台上的并行分布海量数据挖据方法和算法,提出新颖的集成学习算法、汇集学习算法和语义关联学习算法;(4)利用语义Web服务和自治计算的研究成果,研究云计算的按需服务,提出具有特色的按需服务的云自治计算模式。在上述研究成果的基础上,针对电信、互联网搜索引擎等特定应用领域,研制具有国际先进水平的基于云计算的海量数据挖掘引擎原型系统。本项目研究力求在理论上有突破、方法和技术上有创新。在基于云计算的海量数据挖掘领域培养出具有国际竞争力的人才,在国际学术论坛上有更高的可见度,提升我国在海量数据挖掘技术领域的国际影响力。

结论摘要:

云计算和大数据是当前极其活跃的研究领域。本项目主要研究基于云计算的海量数据挖掘理论和关键技术,在海量数据挖掘方法和算法、海量数据预处理方法和算法、云计算与智能体计算相结合的模式、云服务自适应的资源分配等方面取得创新成果如下: 1.提出了利用数据内在结构的海量数据挖掘算法。利用数据内在结构的特征,提出了一个统一的能充分利用数据内在结构的、大规模稀疏学习特征挖掘框架;构建了结构正则化的SVM算法。发表在IEEE TNN上的相关论文已被引27次。 2.提出了海量视频图像数据挖掘方法。针对计算机视觉应用中,视频与图像数据的特征复杂、异构、动态等特点,我们着重研究了多表示、多层次的特征学习与融合方法,有效支持医学诊断与视频异常检测等应用;为了克服训练图像关键词较少问题,提出了混合生成式和判别式模型的图像语义标注方法HGDM;提出了一种基于感知粒度计算的深度图像去雾方法。相关文章发表在IJNS、CVPR、JMLR、CVIU等国际期刊与会议上。 3.提出了跨领域迁移学习算法和拓展典型相关分析方法。提出了基于生成模型的迁移学习分类算法CD-PLSA,该方法可同时处理多个源领域、多个目标领域的学习问题,而且考虑了这些由源领域知识得到的子分类器在目标领域上预测的一致性;提出了一种内省学习方法克服负迁移学习问题;基于特征映射迁移学习思想,提出了一种跨领域典型相关性分析CD-CCA算法。 4.提出了维度约简和数据稀疏化方法。通过研究决策粗糙集模型中的风险损失和模型建立所需阈值参数之间的关系,将决策粗糙集中的属性约简问题转换成优化问题。针对图像数据固有的树型结构,采用最小堆挖掘出具有继承特性的特征。 5. 提出云服务自适应的资源分配和任务调度方法。在海量数据挖掘云服务中,系统资源的分配、任务调度执行不再是单一整体的、集中式的优化问题,而是面向多层次用户的、分布式的优化问题。基于强化学习和多智能体技术,提出了云服务的资源分配和任务调度方法。 6. 研制了大数据挖掘云引擎系统CBDME。该系统在云计算环境下实现跨域、异构、动态大数据的集成、分析、挖掘,以满足行业实际应用的需要。CBDME已应用于舆情分析、视频推荐、跨媒体检索等。开发了并行海量数据挖掘算法工具箱DoDo,并已应用于电信业务数据分析和推荐增值业务。


成果综合统计
成果类型
数量
  • 期刊论文
  • 会议论文
  • 专利
  • 获奖
  • 著作
  • 172
  • 96
  • 3
  • 10
  • 7
期刊论文
会议论文
相关项目
期刊论文 11 会议论文 8 专利 1
期刊论文 36 会议论文 3
史忠植的项目
期刊论文 190 会议论文 118 获奖 5 著作 4
期刊论文 50 会议论文 31 著作 3