近五年来,申请人的研究主要集中在WEB数据管理、P2P计算和数据流方面,发表论文140篇,SCI、EI收录分别为58和89篇, 论文SCI他引共179次。总共发表SIGMOD、VLDB和ICDE论文18篇(含6篇demo)。P2P和WEB数据管理论文连续在ICDE会议和DKE等著名期刊上发表,论文被广泛引用,单篇SCI他引达41次;数据流论文还发表在SDM、CIKM会议和Info.Sci.、KAIS等期刊上,提出的hCount算法在同类算法引用次数最多,SCI他引达18次,该算法成功应用于上海电信网络流量的Top-k监测和异常检测;近两年来从事WEB基础设施和数据密集计算数据管理研究,受邀作国际会议主旨报告和编辑英文期刊专辑。获得2007年度高等学校自然科学二等奖。申请人担任VLDB Journal、JCST等SCI期刊编委和ICDE'09 PC副主席及SIGMOD、VLDB等PC委员。
data management;data intensive computing;distributed storage;in-memory cluster computing;social media data analysis
数据密集型计算是解决当前新型互联网应用、大型商务智能应用和科学研究等应用中“大数据”问题的计算模式。本项目针对数据密集型计算应用系统中的海量、异构、非结构化数据管理的特点和应用需求,以高可用、高效和智能数据处理和数据服务为目标,研究海量数据的存储、索引、检索查询以及数据服务提供等关键支撑技术,从系统架构、数据管理和数据服务三个层面设计和开发实用的技术和系统。培养和造就一批结构合理、在国内外有较大学术和产业影响,可从事符合我国实际应用需求技术研发和成果转化的研发队伍,促进我国在数据密集型计算这一新兴研究领域整体水平的提高,使得部分方向的研究水平得到国际同行的广泛认可, 同时在人才培养方面取得突破。本项目主要成果如下 1) 在数据密集型计算的存储和个性化支持方面,提出了对等计算(P2P)系统中海量数据分布的密度估计解决方案,实现了数据分布密度的无偏估计。通过获得数据分布的准确估计,在很大程度上简化数据平衡问题,为优化部署在大规模分布式网络环境并支持大量的用户使用的数据密集型计算的数据挖掘、数据分析等海量数据处理的关键操作奠定了基础。 2) 在数据密集型计算支撑系统方面,研究设计了集群环境下基于内存计算的数据分析系统CLAIMS。充分考虑计算机硬件技术的发展,特别是多核处理器和大容量内存技术的发展,克服新的内存集群系统中的通讯墙问题,从数据布局、索引、查询优化、并行执行等方面建立了数据处理的新原则。 3) 在社交媒体数据分析与管理方面,基于所收集的新浪微博160万活跃用户近3年的微博以及相关的社交网络,系统研究了社交媒体数据上的事件演化与消息传播建模、事件检测、情绪感知等问题;抽象了社交媒体数据上的分析型查询,并提出了针对这些查询的基准评测;设计、开发了一个基于社交媒体数据的网上集群行为交互式分析原型系统。 4) 在数据密集型计算的应用方面,开展了非结构化数据的语义识别、实时挖掘和系统实现的关键技术研究。提出了基于权威信息源在海量非结构化数据中进行语义实体识别和分析的方法,克服低质量 Web 数据所带来的影响。研究了大规模互联网应用系统的关键性技术问题,包括分布式数据索引、数据密度估计和数据路由等,使得无集中控制的对等网络架构能够作为大规模互联网应用的计算框架。设计和实现了高效的互联网在线广告投放系统和在线广告跟踪监测系统,研究成果“数据密集型计算技术及其在互联网在线广