位置:成果数据库 > 期刊 > 期刊详情页
一种抽取新闻网页结构化数据的方法
  • ISSN号:1007-791X
  • 期刊名称:《燕山大学学报》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西北工业大学计算机学院,陕西西安710072, [2]北京科技大学信息工程学院,北京100083, [3]北京工商大学计算机学院,北京100037
  • 相关基金:国家自然科学基金资助项目(No.60673160)
中文摘要:

根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。

英文摘要:

According to the statistical result of the website of news, estimate and partition of the webpage's noise and information entity based on space structure are provided from the visual point of reading. It improved the traditional DOM model, increased hierarchies and form attributes as the basis to noise judgment, and gradually reduced the noise. Using the extrinsic characteristics of the news, such as titles and report time, a method is proposed and achieved, which could combine positive extract web pages and gain structured data. The positive extract method through the prescient information borderline grab the useful information. The inverse yawp filter uses the filter rules to reduce the range of the matching. A large scale validation to the effect of extraction is ac- complished by using this combining method. The results showed a high rate of accuracy. The information collected on the applicability of English and Chinese news website is good.

同期刊论文项目
期刊论文 49 会议论文 18
同项目期刊论文
期刊信息
  • 《燕山大学学报》
  • 北大核心期刊(2014版)
  • 主管单位:河北省教育厅
  • 主办单位:燕山大学
  • 主编:张福成
  • 地址:河北省秦皇岛市燕山大学期刊社
  • 邮编:066004
  • 邮箱:xuebao@ysu.edu.cn
  • 电话:0335-8057043
  • 国际标准刊号:ISSN:1007-791X
  • 国内统一刊号:ISSN:13-1219/N
  • 邮发代号:18-73
  • 获奖情况:
  • 2009年获2004-2008年度河北省教育系统优秀期刊奖
  • 国内外数据库收录:
  • 美国化学文摘(网络版),中国中国科技核心期刊,中国北大核心期刊(2014版)
  • 被引量:3409