位置:成果数据库 > 期刊 > 期刊详情页
基于质子串分解的中文术语自动抽取
  • ISSN号:1000-3428
  • 期刊名称:《计算机工程》
  • 时间:0
  • 分类:TP391.43[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]清华大学软件学院,北京100084, [2]国家语言资源监测与研究中心网络媒体,武汉430079, [3]华中师范大学计算机科学系,武汉430079
  • 相关基金:国家自然科学基金资助项目(60442005);国家“973”计划基金资助项目(2004CB318104);教育部科学技术研究基金资助重点项目(105117);国家语委语言文字应用“十五”规划基金资助重点项目(ZDI105-B01)
中文摘要:

针对中文术语构成特点,提出了一种基于质子串分解的术语自动抽取方法,将词分为2类:结构简单的质词和有复杂结构的合词;使用参数F-MI抽取结构简单的质词;并在其基础上。进一步使用质子串分解方法抽取具有复杂结构的合词。实验结果显示,该算法有效地提高了中文自动术语抽取的精确度。目前该算法已在国家网络媒体监测项目中得到了应用,并显示了良好的效果。

英文摘要:

In view of Chinese word characteristic, this paper proposes an ATE algorithm, which is based on the decomposition of prime string. Word can be classified to two groups: prime words with simple structure and combined words with complex structure. Prime words are extracted using the F-MI parameter, and combined words are extracted by the decomposition of prime string. Experiments show the algorithm can effectively improve the precision in Chinese ATE. Now this method has been applied to the project of National Language Resources Monitor & Research Center (Network Media) for the extraction of words online.

同期刊论文项目
期刊论文 18 会议论文 15 获奖 2
同项目期刊论文
期刊信息
  • 《计算机工程》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华东计算技术研究所 上海市计算机学会
  • 主编:游小明
  • 地址:上海市桂林路418号
  • 邮编:200233
  • 邮箱:ecice06@ecict.com.cn
  • 电话:021-64846769
  • 国际标准刊号:ISSN:1000-3428
  • 国内统一刊号:ISSN:31-1289/TP
  • 邮发代号:4-310
  • 获奖情况:
  • 1999~2000、2001~2002年度信息产业部优秀期刊奖,2003-2004、2005-2006年度信息产业部电子精品科技...,2007-2008、2009-2010年度工业和信息产业部电子精...,012年度中国科技论文在线优秀期刊一等奖,2013年度中国科技论文在线优秀期刊二等奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:84139