定制数据(ad hoc data)是一切非标准、半结构化的数据如系统日志、监控数据、科学资料库等。由于它们一般没有介绍文本,格式经常变换且带有错漏,对定制数据有效的分析和处理是包括系统工程师、科研人员和金融分析师等广大定制数据用户的难题。本项目中我们将在已有工作的基础上设计并实现一套从海量定制数据自动学习推断出它的格式描述的算法和系统。准确的数据描述可以进一步自动生成一系列常用处理工具和程序设计库的系统。本项目的主要技术挑战是设计高效的上下文相关文法的解析器对带错的定制数据进行解析,同时递增式地推断出精练而准确的数据描述。为实现这一目标,我们将在对带错上下文相关解析法的建模和复杂度,数据描述最优化等相关问题作理论研究。本项目的成果将大大提高定制数据用户的工作效率,降低数据处理成本。
semi-structured data;unstructured text;information extraction;knowledge ase;
本项目在对文本半结构化数据做增量格式分析的研究基础上,探求了对非结构化文本的信息抽取以及知识发现方面的工作。主要工作包括以下几个方面1)递增式定制数据格式抽取;2)自动抽取IsA关系并构建 Probase知识库;3)利用Probase知识库自动理解网页表格、top-k列表、文本中比喻、计算词语间相似度等自然语言处理问题;4)命名实体链接;5)基于概念的网页搜索及图像搜索算法;6)数据隐私保护算法。一共发表高水平国际会议与期刊论文14篇,申请中国国家专利7项,获得Google Faculty Research Award一项,著名数据库会议DASFAA 2014最佳论文奖一项。在该项目的支持下,培养本科生15名,硕士毕业生6名,博士在读生2名。多名学生继续出国深造或被跨国公司录用。总的来说,项目成果丰硕。