位置:成果数据库 > 期刊 > 期刊详情页
面向Deep Web数据自动抽取的模板生成方法
  • ISSN号:1001-3695
  • 期刊名称:《计算机应用研究》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江苏大学计算机学院,江苏镇江212013
  • 相关基金:国家自然科学基金资助项目(60773049);江苏大学博士生创新基金资助项目(CX08B_18X)
中文摘要:

Deep Web结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述、提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。

英文摘要:

Most Deep Web result pages are dynamically generated using a common template populated with data from databases by user' s request. The research was to automatically generate template behind these template-generated Web pages and used the generated template to extract embedded data automatically. Folvaalized the template generation problem. This paper presented a novel template generation method and used the generated templates to extract data from instance pages. Comparing with existing research, this method was applicable for both list pages and detail pages. By the compare on several domains, the experiment results indicate that the novel method greatly improves recall on the base of high accuracy.

同期刊论文项目
期刊论文 73 会议论文 12 专利 2
同项目期刊论文
期刊信息
  • 《计算机应用研究》
  • 北大核心期刊(2011版)
  • 主管单位:四川省科学技术厅
  • 主办单位:四川省计算机研究院
  • 主编:刘营
  • 地址:成都市成科西路3号
  • 邮编:610041
  • 邮箱:arocmag@163.com
  • 电话:028-85210177 85249567
  • 国际标准刊号:ISSN:1001-3695
  • 国内统一刊号:ISSN:51-1196/TP
  • 邮发代号:62-68
  • 获奖情况:
  • 第二届国家期刊奖百种重点科技期刊,国内计算技术类重点核心期刊,国内外著名数据库收录期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:60049