位置:成果数据库 > 期刊 > 期刊详情页
基于特征相关学习的网页信息提取方法
  • ISSN号:1671-4512
  • 期刊名称:《华中科技大学学报:自然科学版》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]华中科技大学计算机科学与技术学院,湖北武汉430074, [2]华中科技大学管理学院,湖北武汉430074;, [3]华中师范大学外国语学院,湖北武汉430079
  • 相关基金:国家自然科学基金资助项目(60403027);中国博士后科学基金资助项目(20060400846).
中文摘要:

为了给出网页信息提取方法的数学形式化的理论分析,首先用一维空间域的信息函数来表示网页信息,并通过分析网页过滤过程,推导出网页信息过滤定理.然后通过分析网页的相似性,推导并提出一种基于相关过滤的网页特征信息的提取理论.在这个理论基础上,融合基于标识规则和基于内容规则的两种方法,提出一种基于特征相关学习的网页信息提取方法.导出的特征提取理论和实验结果表明这种方法具有较好的准确率.

英文摘要:

Web page information was denoted by one-dlmension space information function to present the theoretical analysis of information extraction of Web pages in mathematical form. The theorem of Web page information filtration was deducted after analyzing the process of Web information filtration. And then a novel feature extraction theory of Web pages based on correlative filtration was deducted after analyzing similar features of Web pages. Thus based on the feature extraction theory, a novel adaptive information extraction method with feature learning for Web pages is proposed, through combining the label-based extraction method and the context-based extraction method. Both the deducted feature extraction theory and the experiment results show the adaptive information extraction method for Web pages has good accuracy.

同期刊论文项目
期刊论文 174 会议论文 22 获奖 6 著作 1
同项目期刊论文
期刊信息
  • 《华中科技大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:华中科技大学
  • 主编:丁烈云
  • 地址:武汉珞喻路1037号
  • 邮编:430074
  • 邮箱:hgxbs@mail.hust.edu.cn
  • 电话:027-87543916 87544294
  • 国际标准刊号:ISSN:1671-4512
  • 国内统一刊号:ISSN:42-1658/N
  • 邮发代号:38-9
  • 获奖情况:
  • 全国优秀科技期刊,首届国家期刊奖,第二届全国优秀科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21013