位置:成果数据库 > 期刊 > 期刊详情页
基于网页信息和分词的中文机构名全称和简称提取方法
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP391.1[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院大学,北京100190, [2]中国科学院计算机网络信息中心,北京100190, [3]中国互联网络信息中心,北京100190
  • 相关基金:国家自然科学基金资助项目(61375039,61272433)
中文摘要:

搜索引擎在处理全称和简称的对应关系时,以往只能通过人工添加,造成简称遗漏、搜索结果召回率低等问题。为此,提出了一种自动获取机构全称和简称的方法。根据域名地址获取机构网站首页源代码,从中提取相应机构全称,再结合机构名上下文特征词集合从中提取候选简称,最后计算候选简称与全称的相似度确定最终简称。通过对1287个组织机构网站的实验,全称提取正确率达93.9%,简称召回率和正确率分别达85.3%和90.8%,实验表明该方法效果良好。

英文摘要:

When processing the correspondence between full names and abbreviations, search engine can only use the way of manually adding in the past, resulting in abbreviations omission and low recall rate of search results. To solve these problems, this paper proposed an extraction method of organizations' full names and abbreviations based on Web page and word segmentation. It obtained source code of website homepage of organization firstly. Then it extracted relevant organization full name from the source code, and extracted candidate abbreviations based on contextual features collection of organization names. Finally it calculated the similarity between candidate abbreviations and full name to determine which candidates were the exact abbreviations. Through experiments on 1 287 organization websites, the full names' correct rate of this method is 93.9% , the abbreviations' recall rate and correct rate are 85.3% and 90.8% separately. Experimental results show that the method has a good effect.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049