位置:成果数据库 > 期刊 > 期刊详情页
基于混合模型的中国人名自动识别
  • ISSN号:1003-0077
  • 期刊名称:《中文信息学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学计算机科学与工程系,辽宁大连116024
  • 相关基金:国家自然科学基金资助项目(60373095;60373096)
中文摘要:

本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。

英文摘要:

This paper describes a hybrid model and the corresponding algorithm combining support vector machines (SVM) with statistical methods to improve the performance of SVM for the task of Chinese person names recognition. In this algorithm, a training set is obtained by extracting the attributes of feature vectors based on characters and the SVM model of automatic identification of Chinese person names is set up by choosing a proper kernel function. Thus a threshold of the distance from the test sample to the hyperplane of SVM in feature space is used to separate SVM region and statistical method region. If the distance is greater than the given threshold, the test sample is classified using SVM; otherwise, the statistical model is used. The experimental results show the recall, precision and F-measure for recognition of Chinese person names based on the hybrid model are up to 91.96 %, 94.62 % and 93.27% respectively in open test. Compared with sole SVM, the F-measure increases 1.51%. By integrating the advantages of two methods, the performance is obviously improved.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136