位置:成果数据库 > 期刊 > 期刊详情页
中文专利文献术语抽取
  • ISSN号:1000-7024
  • 期刊名称:计算机工程与设计
  • 时间:2013.6.22
  • 页码:2175-2179
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京信息科技大学网络文化与数字传播北京市重点实验室,北京100101, [2]北京拓尔思信息技术股份有限公司,北京100101
  • 相关基金:国家自然科学基金项目(61171159);国家科技支撑计划课题基金项目(2011BAH11B03);北京市教委科技发展计划基金项目(KM201110772021、KM201211232023)
  • 相关项目:网页内容真实性评价研究
中文摘要:

为了有效解决专利文献中术语抽取问题,提出采用字符串之间的结合强度融合词性过滤法抽取术语的方法。根据专利文献中术语出现的特点,提出了字符串之间的边界结合度方法和字符串之间的串边结合度方法,度量了字符串间的结合强度。在此基础之上,根据术语内部结构中词性的组成特点,提出了术语双字词性过滤的方法,并与结合强度的计算方法进行融合。实验结果表明,该方法对中文专利术语抽取有很好的效果,平均正确率为80.24%,平均召回率为80.61%。

英文摘要:

To deal with the problem of patent terminology extraction, a method based on the bonding strength and character filtering is proposed. Based on characteristics of patent terms, the combination degree of boundary-to-boundary and string-to-boundary of strings are proposed to measure the bonding strength. Based on these, a method for filtering two character terms is pro-posed according to the internal structure of part-of-speech in the term, and is combined with the calculating method which is based on bonding strength. Experiments show that the proposed method is practicable on extracting Chinese patent terms. The average precision is 80.24% and the average recall is 80.61%.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616