位置:成果数据库 > 期刊 > 期刊详情页
基于并列结构的概念实例和属性的同步提取方法
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:462-471
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京大学计算语言学研究所,北京100871, [2]北京大学计算语言学教育部重点实验室,北京100871
  • 相关基金:国家自然科学基金(60873156、61075067); 国家社会科学基金(09BYY032)
  • 相关项目:基于结构化学习的语义角色标注方法研究
中文摘要:

在概念实例和属性的提取研究中,针对基于模式的方法召回率比较低的特点,该文提出了一种基于并列结构的概念实例和属性的同步提取方法。首先利用并列结构模式去网页集合中提取同类词语集合,然后再用基于种子的弱指导方法去学习实例和属性共现的上下文模式,最后再通过模式去提取候选实例或候选属性。在此过程中,每提取出一个候选,就将该候选所在的同类词语集合合并到候选集合中。实验结果表明,该文的方法在不降低准确率的基础上,能大大提高提取结果的召回率。

英文摘要:

Most researches on concept instances and concept attributes extraction focuses on pattern-based approaches,which usually suffer from a low recall rate.In this paper,we present a method of extracting concept instances and concept attributes based on the coordinate structure.Since a part of candidate instances and attributes extracted by the coordination patterns can be putted into the similar-concept-phrases sets in advance,we can use these similar-concept-phrases sets to expand the extraction results in the procedure of co-occurrence pattern-based extraction.Compared with the baseline without using the coordination patterns,experimental results show that the coverage of this method is significantly improved without reducing the precision.

同期刊论文项目
期刊论文 17 会议论文 14 专利 1
同项目期刊论文