以互联网为环境、服务为手段、大众参与的计算是当前云计算蓬勃发展的典型特征,从互联网海量信息资源中挖掘符合用户需求的知识,是国家知识经济发展战略的重要机遇,也是互联网信息服务面临的挑战。本项目秉承数据挖掘"从数据中获取知识"的宗旨,突出云计算模式和面向海量数据对象两大特色,研究基于云计算的海量数据挖掘关键技术,内容包括1)以云计算的海量数据存储、分布和并行计算为基础,设计并实现面向海量数据挖掘的分布存储和并行编程模型框架;2)以复杂网络拓扑表征Web社会网络,研究基于群体智能的海量数据挖掘算法;3)研究面向大众的个性化挖掘服务机制,满足云计算模式下端用户的轻量级应用需求; 4)以维基百科及其形成的社会网络为载体,研发验证示范原型应用-WikiMiner。本课题作为传统数据挖掘向云计算环境下的延伸和丰富,探索推动互联网先进技术成果服务于大众、促进信息资源分享和可持续利用的新方法新途径。
Cloud Computing;Data Mining;Large-scale Knowledge Acquisition;Social Network Analysis;Personalized Recommendation
项目实施过程中,项目组在面向海量数据挖掘的分布存储和并行编程模型框架、基于群体智能的海量数据挖掘算法、面向大众的个性化挖掘服务机制、以及验证示范原型系统研发等方面取得了丰硕的研究成果。项目组在 SIGKDD、SIGIR、AAAI、IJCAI、ACL、WWW 等高水平国际会议以及 IEEE TKDD、IEEE Intelligent System、IEEE TAC 等高水平国际期刊上共发表(含已录用)论文114篇,其中 CCF A类会议及期刊论文共15篇,根据Google Scholar统计代表性论文他引次数643次。在本项目支持下,项目组获得人工智能学会一等奖1项,电子学会二等奖1项,北京市科技进步三等奖1项,中国中医药信息研究会和中国中西医结合学会年度会议上被评为最高奖1项。同时,项目组获得国家自然基金委国际合作项目、欧盟第七合作框架、国家部委和企业合作项目10余项,项目组在群体智慧挖掘和语义知识获取与集成方面的成果得到Wendy Hall、Rudi Studer等著名教授的高度评价,扩大了项目成果的影响力。