非结构化数据的可视化分析是"大数据"环境下数据利用的关键问题之一。本项目针对这一问题中数据量大、结构信息不完整、可视化要求即时性和交互性的特点,从数据管理的角度,以存储和索引对可视化分析所需要的相似性、聚集、交互式查询的支持为切入点,研究了1)面向可视化分析的非结构化数据语义建模;2)支持可视化分析的非结构化数据查询操作和查询语言;3)支持交互式查询的海量非结构化数据的分布式存储与索引;4)支持即时分析的非结构化数据统计量分布式维护等关键技术,并基于真实的海量非结构化数据(2TB微博数据),开发了用户集群行为分析可视化原型系统。在课题资助下,课题组成员在国际学术会议或学术期刊发表论文8篇(包括ICDE 2012会议论文1篇),申请专利1项,申请软件著作权1项,完成非结构数据分析标准测试集1套,培养硕士生2名,在国际学术会议DASFAA 2011上获得了Best Demo Award Runner-Up,在国际学术会议SocInfo 2011上获得Best Poster Award。项目研究内容和技术路线与预先设定相符;项目成果达到了项目任务书要求;项目管理和经费使用符合相关规定。
英文主题词Unstructured data; massive data management; storage and indexing; visualized analysis