位置:成果数据库 > 期刊 > 期刊详情页
基于小规模尾字特征的中文命名实体识别研究
  • 期刊名称:电子学报,9(36),2008
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院软件研究所基础软件工程研究中心,北京100080, [2]广州大学计算机学院,广东广州510006, [3]中国科学院研究生院,北京100049
  • 相关基金:国家自然科学基金(N0.60773027,60736044);863重点项目(N0.2006AA010108);国家242项目计划(No.2006A40)
  • 相关项目:基于NLP的高精度文本检索模型研究
中文摘要:

本文针对难度最大的两类命名实体(地名和机构名)在条件随机场框架下首次引入了小规模的常用尾字特征。实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价显著提高专有名词的识别性能,特别是机构名的识别精度。该系统在我国863简体命名实体识别评测语料上专名(人名、地名和机构名)总体F1值达88.76%,超过当年最佳系统8.63个百分点。在SIGHAN2006命名实体识别语料上的结果也居于前列。

英文摘要:

We propose small-scale-hint-character-list (SSHCL) features for location and organization names under the conditional random fields framework. As experiments show, SSHCL features provide significant gains in precision, especially for organization names,showing complementary property to part-of-speech.It also lowers construction and training cost greatly that a common large scale feature set demands. The overall proper nouns F1 measurement of integrated system on simple Chinese 863 program 2004 NER corpora reaches 88.76 %, gaining 8.63 % improvement over the best system in the evaluation. The performance on SIGHAN 2006 is also remarkable.

同期刊论文项目
期刊论文 117 会议论文 76 专利 12 著作 3
期刊论文 12 会议论文 20
同项目期刊论文