位置:成果数据库 > 期刊 > 期刊详情页
一种基于词频统计的组织机构名识别方法
  • ISSN号:1001-3695
  • 期刊名称:计算机应用研究
  • 时间:0
  • 页码:-
  • 分类:TP301.6[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西南交通大学信息科学与技术学院云计算与智能技术省级高校重点实验室,成都610031
  • 相关基金:国家自然科学基金资助项目(61152001,61170111);中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题(20110102)
  • 相关项目:基于人机共建智慧平台的语义搜索引擎
中文摘要:

命名实体识别是自然语言处理必不可少的重要部分,其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时,利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上,构建了数学模型,实现了组织机构名识别算法。该识别算法集成到了中文分词中,取得了较好的识别结果,可以满足一定的实际应用需求。

英文摘要:

Named entity recognition(NER) is a very important part of natural language processing.And,organization name recognition accounts for a large proportion of NER.This paper proposed the recognition algorithm based on word frequency statistics.Training data mainly came from Baidu encyclopedia entries.In the process of training,organization names were split into a number of words and all the words frequency were computed.On the basis of computation of words frequency,it established the mathematical model and implemented the algorithm of organization name recognition.The algorithm was integrated into Chinese word segmentation system,it achieved good result and met some application requirements.

同期刊论文项目
期刊论文 66 会议论文 38 获奖 20 著作 4
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049