位置:成果数据库 > 期刊 > 期刊详情页
基于信息熵和词频分布变化的术语抽取研究
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2015.1
  • 页码:68-73
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]大连理工大学计算机学院,辽宁大连116023
  • 相关基金:国家自然科学基金(61173101,61173100)
  • 相关项目:跨语言信息检索中的机器翻译研究
中文摘要:

在分别研究了基于信息熵和基于词频分布变化的术语抽取方法的情况下,该文提出了一种信息熵和词频分布变化相结合的术语抽取方法.信息熵体现了术语的完整性,词频分布变化体现了术语的领域相关性.通过应用信息熵,即将信息熵结合到词频分布变化公式中进行术语抽取,且应用简单语言学规则过滤普通字符串.实验表明,在汽车领域的语料上,应用该方法抽取出1 300个术语,其正确率达到73.7%.结果表明该方法对低频术语有更好的抽取效果,同时抽取出的术语结构更完整.

英文摘要:

A term extraction system based on information entropy and word frequency distribution variety is presen- ted. Information entropy can measure the integrality of the terms while word frequency distribution variety can measure the domain relativity of terms. Incorporating with simple linguistic rules as an addition filter,the automatic term extraction system integrates information entropy into word frequency distribution variety formula. Preliminary experiment on the corpus of automotive domain indicates that the precision is 73.7% when 1,300 terms are extrac- ted. The result shows that the proposed approach can effectively recognize the terms with lower frequency and the recognized terms are well of integrality.

同期刊论文项目
期刊论文 50 会议论文 29 著作 1
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136