位置:成果数据库 > 期刊 > 期刊详情页
基于文档对象模型与行块分布算法的网页信息抽取
  • ISSN号:1000-7490
  • 期刊名称:《情报理论与实践》
  • 分类:TP312[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]南京理工大学经济管理学院,江苏南京210094, [2]安全预警与应急联动技术湖北省协同创新中心,湖北武汉430070
  • 相关基金:国家自然科学基金项目“突发事件网络舆情演变过程中的人群仿真研究”(项目编号:71273132),国家自然科学基金项目“基于情感倾向性分析的网络舆情意见领袖识别与对策研究”(项目编号:71303111); 中央高校基本科研业务专项资金项目(项目编号:30920140111006); 江苏省“青蓝工程”〔2012〕39号项目; 江苏高校优势学科建设工程资助的研究成果.
中文摘要:

[目的]网页所表达的主要信息通常隐藏在大量无关的结构和内容中,使用户不能迅速获取主题内容,限制了网页资源的可用性,使用信息抽取技术解决了这一问题。[方法]基于文档对象模型(DOM)的信息抽取技术能够简单准确地从网页中提取所需内容,但依靠网页本身结构;基于行块分布算法的技术摆脱网页结构的限制,克服限定数据源的缺点,但需要人工干预,文章结合DOM技术和行块分布算法以及正则表达式,实现网页信息采集与信息抽取。[结论]能够自动准确提取网页信息。[局限]对英文以及结构复杂的网页抽取效果不是很理想,抽取内容仅限于文字。

英文摘要:

[Purpose] The main information of web page is usually hidden in a large number of irrelevant structures and content,which cannot make users get the main content quickly and limits the availability of web resource. This paper uses information extraction technology to solve the problem. [Method] Information extraction technology based on DOM can extract needed content simply and accurately,but it relies on the structure of web page. The technology based on block distribution algorithm,which needs manual intervention,breaks the limitation of web page structure and overcomes the shortcoming of limited data source. In this paper,based DOM,block distribution algorithm and regular expression,web page information collection and extraction system is implemented. [Conclusion] The result shows that the method extracts web page information automatically and accurately. [Limitations]The extraction results of English pages and pages with complex structure are not satisfied,and the extraction content is limited to text.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《情报理论与实践》
  • 北大核心期刊(2011版)
  • 主管单位:中国兵器工业集团公司
  • 主办单位:中国国防科学技术信息学会 中国兵器工业集团第二一零研究所中国兵器工业第二一0研究所
  • 主编:王忠军
  • 地址:北京2413信箱10分箱
  • 邮编:100089
  • 邮箱:ita@onet.com.cn
  • 电话:010-68961793 68963306
  • 国际标准刊号:ISSN:1000-7490
  • 国内统一刊号:ISSN:11-1762/G3
  • 邮发代号:82-436
  • 获奖情况:
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:26785