位置:成果数据库 > 期刊 > 期刊详情页
基于保边滤波的显著目标快速分割方法
  • ISSN号:1004-9037
  • 期刊名称:《数据采集与处理》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽大学计算机科学与技术学院,安徽合肥230601, [2]安徽省工业图像处理与分析重点实验室,安徽合肥230039
  • 相关基金:国家高技术研究发展计划(863)项目(2014AA015104);国家自然科学基金资助项目(61472002);国家科技支撑计划项目(2012BAH95F00);安徽省电力公司科技项目(521200130M0U,5212M0135384);安徽省科技计划项目科技攻关计划(科技强警)(1301b042002)
中文摘要:

网页标题的正确抽取,在Web文本信息抽取领域有着重大意义。本文提出一种网页标题实时抽取方法。首先通过对目录型网页进行实时解析,接着采用基于超链接遍历的方法,并利用标题与发布时间的对应关系,最终获取对应目录型网页的URL及锚文本。若获得锚文本不是网页正文的标题,则获取主题型网页的HTML源码并构建网页DOM树。在此基础上,结合网页标题的视觉特点,深度优先遍历DOM树,正确提取网页正文标题。实验结果表明,本文提出的Web网页标题实时抽取方法,具有实现简单,准确率高等优点。

英文摘要:

Correct extraction of Web title is significant to Web text information mining. This paper proposed a method which can get a real-time Web page title extraction. This method first used a real-time analysis model though the catalog page, and then used the hyperlink-based travelsal approach, and used the correspondence between the title and the release time to get the URL of the page and the corresponding anchor text. If the anchor text we have was not the title of the text page, we should get the Web page HTML source code and build a DOM tree for the corresponding theme-based Web page. Based on the visual characteristics of the Web page title, we traversed the DOM tree in depth-first order. The experimental results demonstrate that this method is of high accuracy and can be simply implemented and so on.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《数据采集与处理》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国电子学会 仪器仪表学会 信号处理学会 中国一汽仪表学会 中国物理学会 微弱信号检测学会 南京航空航天大学
  • 主编:贲德
  • 地址:南京市御道街29号
  • 邮编:210016
  • 邮箱:sjcj@nuaa.edu.cn
  • 电话:025-84892742
  • 国际标准刊号:ISSN:1004-9037
  • 国内统一刊号:ISSN:32-1367/TN
  • 邮发代号:28-235
  • 获奖情况:
  • 中国科技论文统计源用刊,2007年被评为江苏省优秀期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:8148