Web 2.0热潮极大地推动了互联网的迅速发展,其中社会化媒体作为新型互联网在线媒体应用系统吸引了越来越多用户的参与。社会化媒体中用户参与的协作方式引导互联网信息的产生和消费,使其数据内容和特征与传统数据有着显著区别。社会化媒体系统中数据规模大、数据类型丰富、结构多样而且相互关联等特征,对数据管理和数据挖掘领域的研究人员提出了新的研究课题。本项目申请旨在研究社会化媒体数据管理和挖掘的一些关键技术,主要包括数据模型、组织索引、检索和数据挖掘等,以期实现该类系统中的复杂数据的高效管理,挖掘其数据中蕴含的知识,来更好地支持互联网系统应用和用户体验。在上述理论研究成果的基础上,研制社会化媒体检索和挖掘原型系统,验证本项目研究中提出的新理论和新方法。
Social media;Data modeling;Indexing structure;Search algorithm;Data mining
社会化媒体应用系统作为新型互联网在线媒体应用系统吸引了越来越多用户的参与,其用户参与的协作方式引导互联网信息的产生和消费。由于社会化媒体系统中数据量大、数据类型丰富、结构多样关联特征,对数据管理和数据挖掘领域的研究人员提出了新的研究挑战。社会化媒体的巨大潜力已经吸引越来越多的研究人员的关注,成为数据库研究领域的一个热点。本项目研究社会化媒体数据管理和挖掘的一些关键技术,主要包括数据模型、组织索引、检索和数据挖掘等,实现该类系统中的复杂数据的高效管理,挖掘其数据中蕴含的知识,来更好地支持互联网系统应用和用户体验,比如搜索引擎、多媒体检索、资源推荐等。 本项目工作进展基本按照年度计划进行,具体研究内容包括 1) 利用社会化媒体环境提供的多种资源来有效描述数据对象,设计新的数据模型表示多模态特征以及相互关联特性; 2) 进行社会化媒体数据组织、索引和检索研究,包括不同数据的组织和索引结构设计,新的相似度计算方法和查询算法; 3) 关注数据内容特征、结构关联和用户信息等方面,研究对面向社会化媒体数据对象挖掘关键算法与核心技术,支持信息推荐和热点挖掘等系统应用。 通过本项目的研究,我们圆满完成了预期目标。具体研究成果如下 1) 理论成果在社会化数据管理和挖掘关键技术的理论和方法研究方面取得了国际认可的研究成果;基于本项目的研究内容已经在国内外期刊和会议上发表论文21篇,其中CCF A类国际期刊和会议论文8篇(包括TKDE,TOIS,ICDE 3,VLDB 2,KDD),SCI 7篇,EI 20篇;获WISE 2013国际会议 Best Student Paper。 2)系统成果搭建了一个收集和维护大规模社会化数据的研究平台,收集了超过20T的社会化媒体数据,实现多种检索和挖掘算法,为后续研究以及同类研究打下良好基础。申请美国专利1项(申请号PCT/CN2012/073403),国内专利2项(CN 201110373475,CN 201110374380)。 3)人才培养培养博士6名(毕业2名)和硕士5名(毕业3名),其中一名博士论文获“北京大学优秀博士论文”,两名学生获北京大学信息学院“研究生学术十杰”。