位置:成果数据库 > 期刊 > 期刊详情页
一种基于本体语义的灾害主题爬虫策略
  • ISSN号:1000-3428
  • 期刊名称:《计算机工程》
  • 时间:0
  • 分类:P208[天文地球—地图制图学与地理信息工程;天文地球—测绘科学与技术]
  • 作者机构:[1]信息工程大学地理空间信息学院,郑州450052, [2]四川省应急测绘与防灾减灾工程技术研究中心,成都610041, [3]国防信息学院,武汉430010
  • 相关基金:国家自然科学基金(41271392,41401463,41571394);四川省应急测绘与防灾减灾工程技术研究中心开放基金(K2015B014).
中文摘要:

为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。

英文摘要:

This paper introduces ontology semantics and proposes a new strategy of disaster focused crawler to retrieve disaster theme webpages from the Internet efficiently and accurately.Firstly,the frame and process of disaster focused crawler are designed,and an improved ontology semantic similarity calculation method is proposed.Secondly,the thematic semantic vector is calculated based on semantic similarity,the webpage text feature vector is obtained based on HTML location weighting,and the thematic relevance is calculated.Then a relevance calculation method of URL anchor text is proposed,URL link priority is analyzed,and the crawling queue is optimized.Earthquake disaster and meteorologic disaster are selected to test and analyze,and the experimental results show that the proposed strategy can improve stability and accuracy.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机工程》
  • 北大核心期刊(2014版)
  • 主管单位:中国电子科技集团公司
  • 主办单位:华东计算技术研究所 上海市计算机学会
  • 主编:游小明
  • 地址:上海市桂林路418号
  • 邮编:200233
  • 邮箱:ecice06@ecict.com.cn
  • 电话:021-64846769
  • 国际标准刊号:ISSN:1000-3428
  • 国内统一刊号:ISSN:31-1289/TP
  • 邮发代号:4-310
  • 获奖情况:
  • 1999~2000、2001~2002年度信息产业部优秀期刊奖,2003-2004、2005-2006年度信息产业部电子精品科技...,2007-2008、2009-2010年度工业和信息产业部电子精...,012年度中国科技论文在线优秀期刊一等奖,2013年度中国科技论文在线优秀期刊二等奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:84139