位置:成果数据库 > 期刊 > 期刊详情页
网络信息抽取技术分析与比较
  • ISSN号:2095-2163
  • 期刊名称:智能计算机与应用
  • 时间:2013.10.10
  • 页码:235-239
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家高技术研究发展计划(863)(2011AA01A207);国家自然科学基金(61073130).
  • 相关项目:基于迁移学习的自适应信息抽取技术研究
中文摘要:

随着互联网爆炸式的发展和普及,网络信息已经成为了一种宝贵的信息数据资源。海量的网络数据使得数据分析与挖掘系统进入了一个新时代,越来越多的网络应用系统需要对来自不同数据源的结构化数据进行抽取、挖掘和整合。然而,由于网页文档的半结构化性质,网页上呈现的数据往往不能被机器自动地抽取和理解,因此,网络信息抽取的研究目标在于提取网页的结构化数据。互联网数据的海量规模与高度异构,为网络信息抽取带来了巨大的挑战。分析和总结了近年来网络信息抽取相关的研究与工作,剖析了各个工作的优势和局限,并进一步作了综合的分类与比较。

英文摘要:

The World Wide Web has become an important resource of information due to its explosive growth and spread in the past two decades. The tremendous amount of web data has opened a new era for data analysis and mining systems. More and more web applications need to extract, mine, and integrate data from enormous data sources. However, due to the semi - structure characteristic of web pages, web data exhibited on web pages is not directly consumable by machines. Web information extraction aims at extracting structured data from web pages, which is a very challenging problem clue to the large - scale and highly - heterogeneous characteristic of web data. This paper introduces the state - of - the - art web information extraction studies, analyzes the advantages and limitations of each method, and conducts categorization and comparison of existing approaches.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《智能计算机与应用》
  • 主管单位:中华人民共和国工业和信息化部
  • 主办单位:哈尔滨工业大学 黑龙江省信息化办公室 黑龙江省计算机用户协会 黑龙江省计算机学会
  • 主编:徐晓飞
  • 地址:哈尔滨市南岗区繁荣街155号(哈工大新技术楼916室)
  • 邮编:150001
  • 邮箱:ica@hit.edu.cn
  • 电话:0451-86413183
  • 国际标准刊号:ISSN:2095-2163
  • 国内统一刊号:ISSN:23-1573/TN
  • 邮发代号:14-144
  • 获奖情况:
  • 1988,1991,1996,2000年黑龙江省优秀科技期刊
  • 国内外数据库收录:
  • 被引量:1007