支持中文WEB研究的基础设施建设和应用中的基本方法与关键技术-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

支持中文WEB研究的基础设施建设和应用中的基本方法与关键技术

项目名称：支持中文WEB研究的基础设施建设和应用中的基本方法与关键技术
项目类别：联合基金项目
批准号：60833003
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2009-01-01-2012-12-31

项目负责人：周立柱
负责人职称：教授
依托单位：清华大学
批准年度：2008

中文摘要：

Web已全面渗透到人们的工作生活之中。研究中文Web、开发新型的互联网服务对建设健康的网络文化，促进社会和经济和谐发展有着重要的意义。当前，在技术层面上这一任务所面临的突出矛盾在于:（1）难以从Web中提取为应用服务的真实全面的Web数据集；（2）缺乏为应用服务、对抽取数据进行访问与分析的工具；而构建公共可用的中文Web基础设施则是解决这一矛盾的根本途径。本项目站在这一高度，拟从中文Web数据的收集和组织、存储和访问、综合和分析等三个方面，研究构建中文Web基础设施所急需的基本方法和关键技术。基本思路是（1）从新闻分析、广告关键词竞标以及对偶文本资源库等应用着手进行需求分析，重点解决Web数据的智能抽取和整理、海量Web数据的分布存储、索引的有效访问方法等关键技术，取得创新性成果。（2）构建中文Web工具集，通过应用示范其有效性，为中文Web挖掘和创新性互联网服务提供开放式支持。

中文主题词： Web 基础设施；海量数据处理；Web 数据挖掘；；

英文摘要：

Web infrastructure；mass data processing；Web data mining；；

英文主题词： Web infrastructure；mass data processing；Web data mining；；

结论摘要：

研究中文Web、开发新型的互联网服务在技术上所面临的主要问题来自两个方面，首先是从数据上难以提取面向应用领域的真实全面的Web 数据集；其次在在实验上缺乏为应用领域服务、对抽取数据进行访问与分析的工具。而构建公共可用的中文Web基础设施，解决其中的关键技术则是解决这两大难题的有效途径。为了解决这两大难题，项目组从中文Web数据的收集和组织，中文Web数据的存储和访问，中文Web数据的综合和分析，以及示范性应用等四个方面，研究构建中文Web基础设施所需的基本方法和关键技术，经过四年的努力取得了以下创新性研究成果 1．中文Web 数据的收集和组织系统研究了海量Web 2.0数据的收集、整理，以及管理问题。收集了超过5TB的社交媒体数据，提出了基于外部资源的语义实体提取方法，定义了社交媒体上的信息传播预测问题和19类分析型查询。有效地支持了集群行为研究。研究了中英文双语网页的抓取方法，收集整理了100亿的中英文双语网页建立对偶文本资源库用于构建双语词典。研究了中文深度万维网的发现问题，从国内网站的首页上抓取了70多万个深度万维网数据库，进行了分类等研究。社交媒体数据方面的成果获得了DASFAA 2011 Best Demo Award Runner-Up和SocInfo 2011 Best Poster奖励，还组织了WISE 2012 国际学术会议的Challenge竞赛。 2．中文Web 数据的存储和访问针对海量Web数据的分布式存储和并行查询问题，提出了允许重叠的大规模图的划分技术、基于星型结构的图数据索引技术，以及分布式环境下的连接处理和物化视图维护技术，相关研究结果发表在WWWJ、CloudDB等国际学术期刊和学术会议上。 3．中文Web 数据的综合和分析针对社交网络、实体识别等重大应用，提出了一系列算法。代表性的工作包括基于动态临近性计算的大规模社会网络社区发现算法（发表在SIGKDD’09上，已被引用31次）；基于星型结构的近似图编辑距离计算算法（发表在VLDB’09上，已被引用35次）；面向Web人名搜索和Web文献检索的名字消岐算法GRAPE和GHOST（分别发表于ICDM’09和ACM JDIQ期刊，已被引用21次）；面向非结构化数据和结构化数据的实体链接算法LINDEN和LIEGE、实体语义关系抽取算法REACTOR，以及本体扩展算法APOL

成果综合统计