位置:成果数据库 > 期刊 > 期刊详情页
Web页面细粒度数据抽取方法研究
  • ISSN号:1000-7024
  • 期刊名称:《计算机工程与设计》
  • 时间:0
  • 分类:TP391.3[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]首都师范大学信息工程学院,北京100048, [2]北京理工大学图书馆,北京100081, [3]西南大学计算机与信息科学学院,重庆400715
  • 相关基金:国家自然科学基金项目(61272446);北京市属高等学校人才强教深化计划基金项目(PHR201008083)
中文摘要:

尽管有很多方法用于Web页面信息抽取,对细粒度信息如数据项等的抽取需求仍然很迫切。提出了一个用于结构化数据抽取的解决方案,将Web页面上的信息以更细的粒度抽取出来。对包装器(wrapper)生成时所依据的信息进行了基于稳定性的分类,实现了模板和种子之间多对多的自动关联(automatically correlating),并按照信息稳定性的高低为每个字段生成多个抽取规则,在抽取信息时根据多个抽取规则进行抽取,只有在所有规则失效时才会导致抽取失败,提高了抽取系统的鲁棒性。实验结果表明,该方法具有良好的抽取功率和准确率。

英文摘要:

Although there are many approaches for data extraction from web pages, demand for finer-grained information, such as item information, is still urging especially in oriented domains applications. A solution is proposed for structured data extrac- tion from web pages. System characteristics are in the following aspects., generating the wrapper on the basis of information based on stability classification. The templates and the seeds of the many-to-many relationships in automatic way are realized. According to the information stability level for each field, multiple extraction rules are generated. Only when all rules fail, it is regarded as extraction failure. All above features improve extraction system robustness. Experimental results show that the method has good extraction successful rate and accurate rate.

同期刊论文项目
期刊论文 11 会议论文 4 获奖 2
同项目期刊论文
期刊信息
  • 《计算机工程与设计》
  • 北大核心期刊(2011版)
  • 主管单位:中国航天科工集团
  • 主办单位:中国航天科工集团二院706所
  • 主编:汤铭瑞
  • 地址:北京142信箱37分箱
  • 邮编:100854
  • 邮箱:ced@china-ced.com
  • 电话:010-68389884
  • 国际标准刊号:ISSN:1000-7024
  • 国内统一刊号:ISSN:11-1775/TP
  • 邮发代号:82-425
  • 获奖情况:
  • 中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:45616