自动推断海量定制数据格式研究-东篱科研大数据发现系统（DRDS）

位置：立项数据库 > 立项详情页

自动推断海量定制数据格式研究

项目名称：自动推断海量定制数据格式研究
项目类别：青年科学基金项目
批准号：61100050
申请代码：F020204
项目来源：国家自然科学基金
研究期限：2012-01-01-2014-12-31

项目负责人：朱其立
依托单位：上海交通大学
批准年度：2011

中文摘要：

定制数据(ad hoc data)是一切非标准、半结构化的数据如系统日志、监控数据、科学资料库等。由于它们一般没有介绍文本，格式经常变换且带有错漏，对定制数据有效的分析和处理是包括系统工程师、科研人员和金融分析师等广大定制数据用户的难题。本项目中我们将在已有工作的基础上设计并实现一套从海量定制数据自动学习推断出它的格式描述的算法和系统。准确的数据描述可以进一步自动生成一系列常用处理工具和程序设计库的系统。本项目的主要技术挑战是设计高效的上下文相关文法的解析器对带错的定制数据进行解析，同时递增式地推断出精练而准确的数据描述。为实现这一目标，我们将在对带错上下文相关解析法的建模和复杂度，数据描述最优化等相关问题作理论研究。本项目的成果将大大提高定制数据用户的工作效率，降低数据处理成本。

中文主题词：半结构化数据；非结构化文本；信息抽取；知识库；

英文摘要：

semi-structured data；unstructured text；information extraction；knowledge ase；

英文主题词： semi-structured data；unstructured text；information extraction；knowledge ase；

结论摘要：

本项目在对文本半结构化数据做增量格式分析的研究基础上，探求了对非结构化文本的信息抽取以及知识发现方面的工作。主要工作包括以下几个方面1)递增式定制数据格式抽取；2）自动抽取IsA关系并构建 Probase知识库；3）利用Probase知识库自动理解网页表格、top-k列表、文本中比喻、计算词语间相似度等自然语言处理问题；4）命名实体链接；5）基于概念的网页搜索及图像搜索算法；6）数据隐私保护算法。一共发表高水平国际会议与期刊论文14篇，申请中国国家专利7项，获得Google Faculty Research Award一项，著名数据库会议DASFAA 2014最佳论文奖一项。在该项目的支持下，培养本科生15名，硕士毕业生6名，博士在读生2名。多名学生继续出国深造或被跨国公司录用。总的来说，项目成果丰硕。

成果综合统计