Web已全面渗透到人们的工作生活之中。研究中文Web、开发新型的互联网服务对建设健康的网络文化,促进社会和经济和谐发展有着重要的意义。当前,在技术层面上这一任务所面临的突出矛盾在于:(1)难以从Web中提取为应用服务的真实全面的Web数据集;(2)缺乏为应用服务、对抽取数据进行访问与分析的工具;而构建公共可用的中文Web基础设施则是解决这一矛盾的根本途径。本项目站在这一高度,拟从中文Web数据的收集和组织、存储和访问、综合和分析等三个方面,研究构建中文Web基础设施所急需的基本方法和关键技术。基本思路是(1)从新闻分析、广告关键词竞标以及对偶文本资源库等应用着手进行需求分析,重点解决Web数据的智能抽取和整理、海量Web数据的分布存储、索引的有效访问方法等关键技术,取得创新性成果。(2)构建中文Web工具集,通过应用示范其有效性,为中文Web挖掘和创新性互联网服务提供开放式支持。
Web infrastructure;mass data processing;Web data mining;;
研究中文Web、开发新型的互联网服务在技术上所面临的主要问题来自两个方面,首先是从数据上难以提取面向应用领域的真实全面的Web 数据集;其次在在实验上缺乏为应用领域服务、对抽取数据进行访问与分析的工具。而构建公共可用的中文Web基础设施,解决其中的关键技术则是解决这两大难题的有效途径。为了解决这两大难题,项目组从中文Web数据的收集和组织,中文Web数据的存储和访问,中文Web数据的综合和分析,以及示范性应用等四个方面,研究构建中文Web基础设施所需的基本方法和关键技术,经过四年的努力取得了以下创新性研究成果 1.中文Web 数据的收集和组织 系统研究了海量Web 2.0数据的收集、整理,以及管理问题。收集了超过5TB的社交媒体数据,提出了基于外部资源的语义实体提取方法,定义了社交媒体上的信息传播预测问题和19类分析型查询。有效地支持了集群行为研究。研究了中英文双语网页的抓取方法,收集整理了100亿的中英文双语网页建立对偶文本资源库用于构建双语词典。研究了中文深度万维网的发现问题,从国内网站的首页上抓取了70多万个深度万维网数据库,进行了分类等研究。社交媒体数据方面的成果获得了DASFAA 2011 Best Demo Award Runner-Up和SocInfo 2011 Best Poster奖励,还组织了WISE 2012 国际学术会议的Challenge竞赛。 2.中文Web 数据的存储和访问 针对海量Web数据的分布式存储和并行查询问题,提出了允许重叠的大规模图的划分技术、基于星型结构的图数据索引技术,以及分布式环境下的连接处理和物化视图维护技术,相关研究结果发表在WWWJ、CloudDB等国际学术期刊和学术会议上。 3.中文Web 数据的综合和分析 针对社交网络、实体识别等重大应用,提出了一系列算法。代表性的工作包括基于动态临近性计算的大规模社会网络社区发现算法(发表在SIGKDD’09上,已被引用31次);基于星型结构的近似图编辑距离计算算法(发表在VLDB’09上,已被引用35次);面向Web人名搜索和Web文献检索的名字消岐算法GRAPE和GHOST(分别发表于ICDM’09和ACM JDIQ期刊,已被引用21次);面向非结构化数据和结构化数据的实体链接算法LINDEN和LIEGE、实体语义关系抽取算法REACTOR,以及本体扩展算法APOL