位置:成果数据库 > 期刊 > 期刊详情页
基于DOM结构树的网页正文信息分段方法
  • ISSN号:1006-2475
  • 期刊名称:计算机与现代化
  • 时间:2013.10.10
  • 页码:229-232
  • 分类:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]安徽大学计算机科学与技术学院,安徽合肥230601, [2]安徽省工业图像处理与分析重点实验室,安徽合肥230039
  • 相关基金:国家自然科学基金资助项目(61073116,61202228).
  • 相关项目:数字图像的随机点积图模型研究
中文摘要:

网页正文信息的正确提取与分段,对文本信息挖掘等具有重要的意义。本文提出并实现一种从Web页面获取正文信息并能够正确分段的方法。该方法首先利用网页布局标签〈table〉和〈div〉构建一个DOM结构树,然后利用DOM结构树所反映出的布局标签的嵌套关系,对内容块进行取舍,提取出正确的正文信息,最后利用对一些特殊标签的处理,实现正文信息的分段。实验表明,该方法易实现、效率高,能自动准确地提取正文信息并分段。

英文摘要:

Correct extraction and segmentation of Web information is significant to text information mining. The paper proposes and achieves a method which can get informative information from Web page and be able to follow the correct segmentation of the original text. The method first uses page layout tag 〈 table 〉 and 〈 div 〉 to build a DOM structure tree, and then uses the nested relations of the layout label, that the DOM structure tree reflects to choose the content blocks, extract text information correctly, and finally achieves information segment of the body through the manipulation of some special tags. The experimental results prove that this method is easy to realize and high efficiency and it can automatically extract informative message and section accurately.

同期刊论文项目
期刊论文 59 会议论文 9
同项目期刊论文
期刊信息
  • 《计算机与现代化》
  • 中国科技核心期刊
  • 主管单位:江西省科学技术厅
  • 主办单位:江西省计算机学会 江西省计算技术研究所
  • 主编:刘波平
  • 地址:南昌市西湖区井冈山大道1416号8楼
  • 邮编:330003
  • 邮箱:jgsdd@163.com
  • 电话:0791-86490996
  • 国际标准刊号:ISSN:1006-2475
  • 国内统一刊号:ISSN:36-1137/TP
  • 邮发代号:44-121
  • 获奖情况:
  • 中国科技核心期刊 中国科技论文统计源期刊 江西省...
  • 国内外数据库收录:
  • 波兰哥白尼索引,中国中国科技核心期刊
  • 被引量:14808