位置:成果数据库 > 期刊 > 期刊详情页
基于动词名词和CHI特征选择的中文人物社会关系抽取
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:华东交通大学信息工程学院,南昌330013
  • 相关基金:国家自然科学基金资助项目(61363072,61562027);江西省科技厅科技成果转移转化计划资助项目(20161BB190032);江西社会科学“十二五”规划项目(15XW12);江西省教育厅资助项目(150494)
中文摘要:

针对中文人物社会关系标注语料库的匮乏和人物关系分类过于粗糙的问题,采用一种简单的方式标注了八类主要人物社会关系。为了有效地降低特征向量的维数避免维数灾难,并尽可能去除噪声特征以提高关系抽取的准确率,提出一种基于动词和名词抽取与Х^2统计量法(CHI)相结合的特征选择方法,并使用TF—IDF计算特征权重。通过SVM分类器进行实验,F值和正确率都得到了提高;为了充分利用数据集对该特征选择方法的效果进行测试,使用后一折交叉验证检验该方法的有效性,实验表明通过该方法产生的分类模型具有较强的区分能力和泛化能力。

英文摘要:

Due to the scarce of labeled Chinese corpus of social relation and the rough classification of personal social relations, this paper used a simple method to labeled eight main types of personal social relation. It was necessary to reduce the dimension of feature vector effectively to avoid the curse of dimensionality and remove the noise characteristics to improve the accuracy of relation extraction, therefore, this paper proposed a feature selection method based on Chi square statistic combination with selection of verb and noun, and used TF-IDF to calculate weight of the feature items. After feature selection, the proposed method was tested by SVM classifier, and the results of F-score and accuracy were improved. In order to make full use of the data set to test the effect of this feature selection method, the validity of the proposed method was tested by using k-fold cross validation. Experimental results show that the classification model generated by this method has high discernibility and generalization ability.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049