位置:成果数据库 > 期刊 > 期刊详情页
以本体为指导的Web网页信息抽取方法
  • ISSN号:1671-4628
  • 期刊名称:《北京化工大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京化工大学信息科学与技术学院,北京100029
  • 相关基金:国家“973”计划(2011CB706900)
中文摘要:

针对Web网页中事物描述信息的特点,提出了一种通过本体指导网页信息抽取的方法。首先建立抽取对象的本体模型,并为本体属性概念添加定位信息映射模型,通过映射模型定位和分离样本页中包含语义信息的数据块,结合路径分析算法生成抽取规则,之后利用抽取规则对同类网页中的事物描述信息进行抽取,最后以资源描述框架(RDF)数据格式储存信息。抽取性能测试实验表明,抽取结果具有较高的准确率,与无规则抽取方法相比,具有更高的抽取效率。

英文摘要:

With the aim of identifying the features of thing-descriptive information contained in web pages, a novel approach of web page information extraction guided by ontology is proposed in this paper. The method first adds a mapping model to the properties of the pre-built ontology concept. Then, it separates the semantic data block from the sample page with location information in the mapping model, and creates extraction rules using a path analysis algorithm. Lastly the related information records are extracted from similar web pages according to the extraction rules and stored in resource description framework (RDF) format. The experimental results indicate that in comparison with the ruleless extraction method, the method gives a better accuracy according to the outcome of the extraction, and performs more efficiently.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《北京化工大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:教育部
  • 主办单位:北京化工大学
  • 主编:刘振宇
  • 地址:北京市北三环东路15号
  • 邮编:100029
  • 邮箱:bhxbzr@126.com
  • 电话:010-64434926
  • 国际标准刊号:ISSN:1671-4628
  • 国内统一刊号:ISSN:11-4755/TQ
  • 邮发代号:82-657
  • 获奖情况:
  • 1999年教育部优秀科技期刊二等奖,1997年第二届全国科技期刊评比三等奖,1995年全国重点高校自然科学学报二等奖,中国期刊方阵“双效”期刊,首届高校优秀科技期刊,全国石化行业优秀期刊一等奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),荷兰文摘与引文数据库,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:9420