位置:成果数据库 > 期刊 > 期刊详情页
基于词向量的开放文本领域概念识别方法
  • ISSN号:0253-2395
  • 期刊名称:《山西大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中国科学院计算技术研究所,北京100190, [2]国家计算机网络应急技术处理协调中心,北京100029
  • 相关基金:国家“九七三”重点基础研究发展计划基金(2014CB340401;2013CB329601); 国家自然科学基金(61173008;61100175;61232010;60933005;61402442); 北京市科技新星计划(Z121101002512063); 北京市自然科学基金青年基金(4154086)
中文摘要:

在领域知识库的构建过程中,领域概念的识别是一项非常重要的步骤。当前基于统计方法仅按词频进行领域概念的识别,而一些较长的重要领域概念恰恰是低频词,因而对低频领域概念识别准确率不高。为了提高低频领域概念的识别准确率,本文提出了一种基于词向量的加权HITS算法。此方法首先将开放文本中的领域概念表示为词向量,然后使用加权HITS算法计算其领域相关度,最终筛选出领域相关度超过一定阈值的领域概念构建领域知识库。实验证明,本文提出的方法与现有方法相比,在领域概念识别的准确率和召回率方面有一定的改进。特别地,该方法将低频领域概念识别召回率提高了10%。

英文摘要:

In the construction of the domain knowledge base,domain concepts recognition is a very important step.So far,statistics-based methods recognize the domain concepts only by word frequency,while word frequency of long important domain concepts is very low,so they can't recognize the low-frequency domain concepts well.In order to improve the recognition rate of low-frequency domain concepts,a word vector-based weighted-HITS method is proposed.The word is first expressed as a vector,and then the domain pertinence is decided using weighted-HITS,finally the domain concepts of which domain pertinence exceeds a threshold value are populated into the domain knowledge base.The experiments shows that compared with existing methods,it performs better in recognizing domain concepts.Especially,the recall of the low-frequency domain concepts is improved by 10%.

同期刊论文项目
期刊论文 50 会议论文 50 获奖 6 著作 3
同项目期刊论文
期刊信息
  • 《山西大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:山西省教育厅
  • 主办单位:山西大学
  • 主编:杨斌盛
  • 地址:太原市坞城路92号
  • 邮编:030006
  • 邮箱:xbbjb@sxu.edu.cn
  • 电话:0351-7010455
  • 国际标准刊号:ISSN:0253-2395
  • 国内统一刊号:ISSN:14-1105/N
  • 邮发代号:22-42
  • 获奖情况:
  • 边疆七年获山西省一级期刊荣誉(1993-1999)
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),英国动物学记录,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:5651