位置:成果数据库 > 期刊 > 期刊详情页
基于高校网站内容的实体抽取研究
  • ISSN号:2095-5502
  • 期刊名称:《创新人才教育》
  • 时间:0
  • 分类:TP273[自动化与计算机技术—控制科学与工程;自动化与计算机技术—检测技术与自动化装置]
  • 作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101
  • 相关基金:国家自然科学基金资助项目(61271304、61671070); 北京成像技术高精尖创新中心资助项目(BAICIT-2016003); 国家社会科学基金资助项目(14@ZH036); 国家社科基金重大资助项目(15ZDB017)
中文摘要:

针对高校网站上大量的会议稿中的人名、地名以及会议名称等重要信息,提出了一种基于规则与统计相结合的识别方法,首先根据会议稿的特点将会议稿分为2类,规则和非规则会议稿,其中规则会议稿采用编写规则的方法来抽取会议稿中的实体,非规则会议稿则通过条件随机场进行初步识别,然后,再针对条件随机场未能识别的实体进行基于规则的识别。实验结果表明,该方法的识别效果明显优于仅采用单次规则或条件随机场的处理结果。

英文摘要:

Aiming at important information such as names of people,places and conference in large amount of conference scripts,a method combining rules and statistics is proposed. First,conference scripts are divided into two categories including regular and irregular one. For the regular one,the entity extraction is realized by the method of writing rules. For the irregular one,the entity extraction is made through Conditional Random Fields( CRFs) to get preliminary recognition result,and the unrecognized entities are recognized based on rules. Experimental results show that the effect of the proposed method is superior to those using a single rule or CRFs.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《创新人才教育》
  • 主管单位:中华人民共和国教育部
  • 主办单位:中国人民大学
  • 主编:刘彭芝
  • 地址:北京市海淀区中关村大街37号科研南楼706室
  • 邮编:100080
  • 邮箱:cxrcjy@rdfz.cn
  • 电话:010-62512730
  • 国际标准刊号:ISSN:2095-5502
  • 国内统一刊号:ISSN:10-1118/G4
  • 邮发代号:80-92
  • 获奖情况:
  • 国内外数据库收录:
  • 被引量:77