东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于DOM结构树的网页正文信息分段方法

ISSN号：1006-2475
期刊名称：计算机与现代化
时间：2013.10.10
页码：229-232
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]安徽大学计算机科学与技术学院,安徽合肥230601, [2]安徽省工业图像处理与分析重点实验室,安徽合肥230039
相关基金：国家自然科学基金资助项目（61073116,61202228）.
相关项目：数字图像的随机点积图模型研究

作者：周建|汤进|罗斌|

关键词：语义标记, 布局标签, 分段, 噪音, semantic markup, layout label, segmentation, noise

中文摘要：

网页正文信息的正确提取与分段，对文本信息挖掘等具有重要的意义。本文提出并实现一种从Web页面获取正文信息并能够正确分段的方法。该方法首先利用网页布局标签〈table〉和〈div〉构建一个DOM结构树，然后利用DOM结构树所反映出的布局标签的嵌套关系，对内容块进行取舍，提取出正确的正文信息，最后利用对一些特殊标签的处理，实现正文信息的分段。实验表明，该方法易实现、效率高，能自动准确地提取正文信息并分段。

英文摘要：

Correct extraction and segmentation of Web information is significant to text information mining. The paper proposes and achieves a method which can get informative information from Web page and be able to follow the correct segmentation of the original text. The method first uses page layout tag 〈 table 〉 and 〈 div 〉 to build a DOM structure tree, and then uses the nested relations of the layout label, that the DOM structure tree reflects to choose the content blocks, extract text information correctly, and finally achieves information segment of the body through the manipulation of some special tags. The experimental results prove that this method is easy to realize and high efficiency and it can automatically extract informative message and section accurately.

同期刊论文项目

数字图像的随机点积图模型研究

期刊论文 59 会议论文 9

图像识别中区分性稀疏表示理论与方法研究

期刊论文 21 会议论文 1

同项目期刊论文

A Local Elitism Based Membrane Evolutionary Algorithm for Point Pattern Matching

基于微分对策理论的非线性控制回顾与展望

局部保持的稀疏表示字典学习

基于多重核的稀疏表示分类

基于图的直方图及路径相似性的图匹配方法

基于二维近邻保持嵌入的图像识别

基于血流模型和贝叶斯的红外人脸识别

达芬奇平台下的运动目标检测算法的应用研究

基于镜头标记与动态滑动窗口的视频摘要生成

基于关联图划分的Kmeans算法

多模复杂网络模型的形状特征提取方法

Extended dot product representations of graphs with application to radar image segmentation

图像拼接在红外在线监测系统中的应用

变压器类设备状态评价的回归建模研究

基于梯度广义近邻图的多模医学图像配准

基于证据理论的小波域多特征医学图像融合

非负Laplacian嵌入在颅脑MR图像分割中的应用

结合SURF描述符和广义近邻图的图像配准算法

双份分形码与自适应TV模型的图像恢复

基于相位相关的电力红外热像拼接

基于多标签ReliefF的特征选择算法

基于边缘相关的红外热像配准

基于SNMP和AHP的网络设备安全态势分析系统

Graph matching based on spectral embedding with missing value

视频结构化描述模型

Salt and pepper noise removing algorithm based on weighted network and OWA operator

一种人脸皮肤图像诊断方法

视频监控系统中行人的自动分割算法

Image representation and recognition based on directed complex network model

基于迭代分形解码和边缘扩展的图像修复算法

图上下文及在图距离计算中的应用

基于膜计算模型的点集匹配算法

基于复杂网络的图像建模与特征提取方法

视频监控中的自适应跟踪窗目标跟踪算法研究

基于局部Walsh变换和非负矩阵分解的脑白质图像分割

一种基于加权投票的图像匹配改进方法

Graph structure analysis based on complex network

一种改进的再生核支持向量机回归模型

使用自适应线性回归的多标签分类算法

基于反馈稀疏约束的非负张量分解算法

Semi-supervised manifold learning based on 2-fold weights

基于广义积分平方误差谱选择的图像分割

基于Gabor小波和SVD的热红外人脸识别研究

基于像素对匹配的高载荷隐写算法

Several Applications of Spiking Neural P Systems with Weights

基于随机点积图的图像标注改善算法

迭代的图变换匹配算法

基于加权网络和OWA算子的图像椒盐噪声滤除算法

基于最小风险贝叶斯分类器的茶叶茶梗分类

基于特征点Rényi互信息的医学图像配准

基于加权高阶奇异值分解的支持张量机图像分类

基于LBP算子和类覆盖捕获图的人脸检测算法

基于L1范数主成分分析的颅脑图像恢复

一种茶叶茶梗色选机图像快速分拣方法

Extended linear regression for undersampled face recognition

基于局部保持的核稀疏表示字典学习

局部保持的稀疏表示字典学习

基于核Fisher判别字典学习的稀疏表示分类

基于多重核的稀疏表示分类

An algorithm framework of sparse minimization for positive definite quadratic forms

Similarity Learning of Manifold Data.

基于L1-范数的二维线性判别分析

一种非负稀疏近邻表示的多标签学习算法

视频监控系统中行人的自动分割算法

图上下文及在图距离计算中的应用

迭代的图变换匹配算法

基于非负稀疏协作模型的目标跟踪算法

改进复杂网络模型的形状特征提取

结合形状约束的Graph Cut行人分割

基于有向复杂网络模型的形状描述与识别

手持终端的自识别矢量量化数字水印系统

一种指纹图像规格化期望值自动估计方法

结合RGB颜色特征和纹理特征的消影算法

一种基于图像的大型车辆车身长度自动测量方法

期刊信息

《计算机与现代化》
中国科技核心期刊

主管单位:江西省科学技术厅
主办单位:江西省计算机学会江西省计算技术研究所
主编：刘波平
地址：南昌市西湖区井冈山大道1416号8楼
邮编：330003
邮箱：jgsdd@163.com
电话：0791-86490996

国际标准刊号：ISSN：1006-2475
国内统一刊号：ISSN：36-1137/TP
邮发代号:44-121

获奖情况:
中国科技核心期刊中国科技论文统计源期刊江西省...

国内外数据库收录:
波兰哥白尼索引,中国中国科技核心期刊

被引量:14808