位置:成果数据库 > 期刊 > 期刊详情页
基于不一致的汉语句法树库潜在错误查找
  • ISSN号:1671-9352
  • 期刊名称:山东大学学报(理学版)
  • 时间:2015.1.1
  • 页码:26-30
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山西大学计算机与信息技术学院,山西太原030006
  • 相关基金:国家自然科学青年基金资助项目(61100138,61403238); 山西省自然科学基金资助项目(2011011016-2,2012021012-1); 山西省回国留学人员科研项目(2013-022); 山西省高校科技开发项目(20121117); 山西省2012年度留学回国人员科技活动择优项目
  • 相关项目:基于自动选择标注对象的汉语时间语义信息处理方法研究
中文摘要:

语料库是自然语言处理NLP(natural language processing)的基础,其标注质量影响着基于有指导机器学习方法的NLP系统的性能。针对汉语句法树库,提出了一种基于不一致查找树库潜在标注错误的方法,该方法主要从两方面进行不一致检测:一是从类似短语内部构成并结合可疑度来检测不一致;二是从标注大纲入手,检测词性、短语等各类标记符号与大纲定义不符合的情况。实验结果表明,在查找到的不一致现象中,存在一定数量的语料库标注错误。

英文摘要:

Corpora are fundamental to natural language processing( NLP) and corpus annotation quality influences the performance of the systems based on supervised machine learning approaches. Aiming at Chinese treebank,an approach was proposed to find potential errors based on inconsistencies. Inconsistencies were detected with two strategies: one uses similar internal structure and suspicious degree,the other uses the annotation guideline to check those annotations,which don't meet the definitions of the guideline. Experimental results showthat there are some annotation errors in the inconsistencies.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《山东大学学报:理学版》
  • 北大核心期刊(2011版)
  • 主管单位:中华人民共和国教育部
  • 主办单位:山东大学
  • 主编:刘建亚
  • 地址:济南市经十路17923号
  • 邮编:250061
  • 邮箱:xblxb@sdu.edu.cn
  • 电话:0531-88396917
  • 国际标准刊号:ISSN:1671-9352
  • 国内统一刊号:ISSN:37-1389/N
  • 邮发代号:24-222
  • 获奖情况:
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,中国中国科技核心期刊,中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),英国英国皇家化学学会文摘
  • 被引量:6243