位置:成果数据库 > 期刊 > 期刊详情页
基于术语长度和语法特征的统计领域术语抽取
  • ISSN号:1006-7043
  • 期刊名称:《哈尔滨工程大学学报》
  • 时间:0
  • 分类:TP181[自动化与计算机技术—控制科学与工程;自动化与计算机技术—控制理论与控制工程]
  • 作者机构:[1]天津理工大学计算机视觉与系统省部共建教育部重点实验室,天津300384, [2]天津理工大学天津市智能计算及软件新技术重点实验室,天津300384
  • 相关基金:国家自然科学基金项目(71501141,61301140); 天津市科技特派员项目(15JCTPJC63800)
中文摘要:

针对领域术语抽取中含字长度较大的术语被错误切分的问题,本文提出一种基于术语长度和语法特征的统计领域术语抽取方法。本方法在利用机器学习抽取候选术语时,加入基于术语长度和语法特征的约束规则;在使用统计方法确定候选术语的领域性时,充分考虑词长比这一概念的重要性,将其作为判断术语领域性的重要权值。实验表明,提出的方法能够正确抽取含字长度较大的领域术语,抽取结果的准确率和召回率相比以往的方法有所提高。

英文摘要:

A statistical domain terminology extraction method based on word length and grammatical feature is proposed to resolve the incorrect segmentation of long terminology. Constraint rules based on word length and grammatical feature are added in when machine learning is utilized to extract candidate terminology. When a statistical method is used to determine the domain of candidate terminology, the importance of the concept of word length ratio is fully considered and is used as an important weight for judging the terminology domain. The experiment shows that long terminology can be correctly extracted through this method. Moreover, the precision and recall rate of the proposed extraction method are superior to those of traditional methods.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《哈尔滨工程大学学报》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工程大学
  • 主编:杨士莪
  • 地址:哈尔滨市南岗区南通大街145号1号楼
  • 邮编:150001
  • 邮箱:xuebao@hrbeu.edu.cn
  • 电话:0451-82519357
  • 国际标准刊号:ISSN:1006-7043
  • 国内统一刊号:ISSN:23-1390/U
  • 邮发代号:14-111
  • 获奖情况:
  • 工信部科技期刊评比"优秀期刊奖",中国高校科技期刊评比"精品期刊奖","北方十佳期刊奖",首届黑龙江省政府出版奖--优秀期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),波兰哥白尼索引,德国数学文摘,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:11823