位置:成果数据库 > 期刊 > 期刊详情页
基于规则的依存树库错误自动检测与分析
  • ISSN号:0479-8023
  • 期刊名称:《北京大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:雷东大学史学院,烟台264025
  • 相关基金:国家自然科学基金(61572245;61103089;61272215)资助
中文摘要:

尝试将依存树转化为短语结构树,并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库,从50275个句法树中发现1529处错误,正确率为100%。进一步,所有错误可以分为3个层次:分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量,并且适用于各类型的依存树库。

英文摘要:

The authors try to transform dependency tree into phrase structure tree, and detect annotation errors automatically based on manual rules. The method is used in processing Peking University Multi-view Chinese Treebank(PMT). Although PMT has been manually checked twice before processed by this method, 1529 errors are detected among the 50275 sentences and the precision is 100%. The errors mainly belong to three types: word segmentation error, mismatching between POS and syntactic role, and syntactic role error. This method can further improve treebank quality, and be applied to other dependency treebanks.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:教育部
  • 主办单位:北京大学
  • 主编:赵光达
  • 地址:北京海淀区海淀路52号
  • 邮编:100871
  • 邮箱:xbna@pku.edu.cn
  • 电话:010-62756706
  • 国际标准刊号:ISSN:0479-8023
  • 国内统一刊号:ISSN:11-2442/N
  • 邮发代号:2-89
  • 获奖情况:
  • 1997年第二届全国优秀科技期刊评比一等奖,1999年教育部“优秀自然科学学报一等奖”,1999年获首届国家期刊奖,中国期刊方阵“双高”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,英国科学文摘数据库,英国动物学记录,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘,中国北大核心期刊(2000版)
  • 被引量:18270