位置:成果数据库 > 期刊 > 期刊详情页
融合多特征的最大熵汉语命名实体识别模型
  • ISSN号:1000-1239
  • 期刊名称:计算机研究与发展
  • 时间:0
  • 页码:1004-1010
  • 语言:中文
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]复旦大学计算机科学与工程系,上海200433, [2]上海市智能信息处理重点实验室,上海200433
  • 相关基金:国家自然科学基金项目(60773124);上海市科技攻关计划基金项目(07dz15007)
  • 相关项目:面向英汉双向跨语言信息检索的若干自然语言处理底层关键技术研究
中文摘要:

最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性。因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型。该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识。基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式。基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性。

英文摘要:

With the development of natural language processing (NLP) technology, the need for automatic named entity recognition (NER) is highlighted in order to enhance the performance of information extraction systems. The task of NER, which plays a vital role in NLP, is to tag each named entity (NE) in documents with a set of certain NE types. In this paper, a hybrid pattern for Chinese NER based on maximum entropy model is proposed, which fuses multiple features. It differentiates from most of the previous approaches mainly in the following aspects. Firstly, maximum entropy model is an outstanding statistical model for its good integration of various constraints and its compatibility to Chinese NER. Secondly, local features and global features are integrated in the hybrid model to get high performance. Thirdly, in order to reduce the searching space and improve the processing efficiency, heuristic human knowledge is introduced into the statistical model, which could increase the recognition performance significantly. From the experimental results on testing set for NER evaluation task in SIGHAN 2008, it can be concluded that the established hybrid model is an effective pattern to combine statistical model and heuristic human knowledge. And the experiments on another different testing set also confirm the above conclusion, which show that this algorithm has consistence on different testing data sources.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349