位置:成果数据库 > 期刊 > 期刊详情页
基于关联度评价的中心词扩展的英文文本语块识别
  • ISSN号:1000-1239
  • 期刊名称:《计算机研究与发展》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学语言语音教育部-微软重点实验室,哈尔滨150001, [2]东北林业大学信息与计算机工程学院,哈尔滨150080
  • 相关基金:国家自然科学基金项目(60302021,60375019);国家“八六三”高技术研究发展计划基金项目(2002AA117010-09);科技部政府问国际合作基金项目(CI-2003-03)
中文摘要:

传统的英文文本语块识别的方法大多是通过设定相应的短语标识符号,最终把语块识别问题转化成词性标注问题来解决.实验表明,这种方法不能充分考虑相邻词性的关系和每种短语的内部组成规律.关联度评价中心词扩展的英文文本语块识别方法从另外一个角度来识别英文文本语块.它具有以下特点:①把每个短语看成是以中心词为核心的聚簇,充分考虑每种短语的内部组成规律;②使用关联度和可信度动态地评价得到的结果.通过对公共测试集的测试,此方法识别的速度较快,而且英语语块识别的F测度值达到了94.05%,与目前的最好结果相当.

英文摘要:

Traditional English text chunking approach is to transfer chunking to part of speech. It is shown that this could not take into account the relationship of neighbor part of speech and the cohesion of all part of speeches within one phrase. In this paper, the headword extending and the evaluation of relative-degree strategy are proposed and applied in the identification of English text chunking whose main features are: 1) regarding each phrase as a cluster whose kernel is headword, which richly uses the disciplinarian of consisting of one phrase; 2) dynamically evaluating the chunking result using doubt-degree and reliability. Through testing on the public corpus, the speed of this method is faster than others, and the F score achieves 94.05 %, which is at the state-of-the-art.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349