位置:成果数据库 > 期刊 > 期刊详情页
基于视觉的网页数据表格定位方法研究
  • ISSN号:1007-7634
  • 期刊名称:情报科学
  • 时间:0
  • 页码:7507-7509
  • 语言:中文
  • 分类:TP311.13[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]上海交通大学安泰经济与管理学院,上海200052, [2]上海电力学院,上海200090
  • 相关基金:基金项目:国家自然科学基金重大项目(70533030)
  • 相关项目:电子政务管理理论与方法的基础研究
中文摘要:

提出一种新的基于视觉的网页数据表格定位方法,这种方法模拟人类视觉认知,通过表格视觉特征来定位网页数据表格。首先通过引入布局引擎。使得模拟浏览器显示并获得网页中各表格的视觉特征成为可能。然后提出一系列规则。将DOM树拆分为若干个独立的TABLE。最后提炼出表格的视觉特征指标,根据这些指标对表格进行排序,从而得到最终的网页数据表格。

英文摘要:

This paper presents a new approach for detecting data tables in Web pages based on visual cues, which simulates the human visual awareness to detect data tables in Web page. Firstly by intro- ducing the layout engine, it makes the simulation of browser to display Web page and getting all kinds of visual features possible. Secondly we propose a series of rules by which the DOM tree will be split into several independent TABLEs. Thirdly a set of visual indicators is extracted, and the final data tables in Web pages are detected based on these indicators.

同期刊论文项目
期刊论文 93 会议论文 19 著作 5
同项目期刊论文
期刊信息
  • 《情报科学》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部
  • 主办单位:中国科学技术情报学会 吉林大学
  • 主编:靖继鹏
  • 地址:长春市人民大街5988号
  • 邮编:130022
  • 邮箱:infosci@jlu.edu.cn
  • 电话:0431-85095200
  • 国际标准刊号:ISSN:1007-7634
  • 国内统一刊号:ISSN:22-1264/G2
  • 邮发代号:12-174
  • 获奖情况:
  • 全国中文核心期刊,2001年被评为吉林省科技类一级期刊
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:36930