位置:成果数据库 > 期刊 > 期刊详情页
基于多特征融合的网页正文信息抽取
  • ISSN号:1000-386X
  • 期刊名称:计算机应用与软件
  • 时间:0
  • 页码:-
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西南交通大学信息科学与技术学院,思维与智慧研究所,四川成都610031
  • 相关基金:国家自然科学基金项目(61152001,61170111); 中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题(20110102)
  • 相关项目:基于人机共建智慧平台的语义搜索引擎
中文摘要:

当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。

英文摘要:

Nowadays, the mainstream webpages are divided into single text body webpages and multiple text body webpages. These webpages text information all have the heterogeneous text features. In order to accurately position the location of text information, one can commence from the heterogeneous features they possess and the design habits of the web designers. Therefore, in this paper, we fuse these features and present a webpages text information extraction method which is based on heterogeneous features fusion. Experimental results show that the method has higher accuracy rate and universality for extracting the texts from single test body webpages and multiple text body webpages, fits well the webpages with a variety of styles.

同期刊论文项目
期刊论文 66 会议论文 38 获奖 20 著作 4
同项目期刊论文
期刊信息
  • 《计算机应用与软件》
  • 北大核心期刊(2011版)
  • 主管单位:上海科学院
  • 主办单位:上海市计算技术研究所 上海计算机软件技术开发中心
  • 主编:朱三元
  • 地址:上海市愚园路546号
  • 邮编:200040
  • 邮箱:cas@sict.stc.sh.cn
  • 电话:021-62254715 62520070-505
  • 国际标准刊号:ISSN:1000-386X
  • 国内统一刊号:ISSN:31-1260/TP
  • 邮发代号:4-379
  • 获奖情况:
  • 全国计算机类中文核心期刊
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2011版),中国北大核心期刊(2000版)
  • 被引量:27463