东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

一种DOM树标签路径和行块密度结合的Web信息抽取方法

ISSN号：1672-7878
期刊名称：《抗感染药学》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：山西大学商务学院,太原030031
相关基金：山西大学商务学院2016年科研基金（2016008）

作者：马晓慧, 李泓莹

关键词： DOM树, 视觉特征, 标签路径特征, 行块分布函数, DOM tree, visual features , label path characteristics, block distribution function

中文摘要：

本文提出了一种标签路径和行块分布函数相结合的信息抽取方法来实现Web页面的信息抽取。该方法将Web页面解析成DOM树,使用视觉特征和标签过滤的规则将树进行剪枝,引入标签路径特征的方法粗略划分出网页的正文内容和噪音内容,最终使用行块分布函数的方法进行抽取,获得正文文本。实验结果表明,这种抽取方法有效地防止了正文内容误删及噪音内容漏删的现象,使得提取的正文信息更加准确,准确度达到91%,召回率达到95%,F值达到93%。本算法对于包含过多短文本的网页抽取的准确度还有待提高。

英文摘要：

In this paper, an information extraction method combining tag path and block distribution function is proposed to extract information from Web pages. The Web page is parsed into a DOM tree in first step. Secondly, the DOM tree is pruned by using visual features and label filtering rules. And then introducing label path characteristics, Web information is roughly divided into two parts： text content and noise content. Finally, using row block distribution function to extract text, the text is utterly obtained. The experimental results show that this method can prevent that the text is mistaken to delete and the noise content is missed to delete effectively, making the extraction of text information more accurately. The results shows that the precision reaches 91%, the recall rate 95%, F score 93%. The accuracy of the algorithm for Web pages which are containing too many short texts still has to be improved.

同期刊论文项目

　超声波式热量表（HT2558型DN20～DN200）

期刊论文 53

同项目期刊论文

株间加温对设施番茄生长发育的影响

温室保温被性能测试与分析

血管紧张素转换酶与抑制肽结合模式的分子动力学研究

双子表面活性剂在油气田开发中的应用研究

用法治思维推进社会建设

利用开源QGIS软件提高地震应急专题图制作效率研究

需求驱动我国能源消耗效应研究--基于改进的两级分解法

新的社会阶层兴起及其对当代中国的影响

新常态下PPP 模式推广应用的影响因素

排污权有偿使用和交易定价问题研究——以连云港海域化学需氧量排放为例

构建高校健美操教学新模式的若干研究

当前独立学院学生对健美操课需求现状的调查与分析

互联网＋环境下人文学科教改的实践研究

冷却速度对圆形加载路径下A319铝合金多轴疲劳特性的影响

“互联网+”背景下连锁商店发展对农村消费者影响研究

西安市校园女子足球运动开展现状研究

基于霍尔传感器的电子式车速里程表设计

Ce负载微孔-介孔复合分子筛催化合成乙酸正丁酯

硅胶负载硫酸（SSA）催化合成不对称芳基硫醚类化合物及其抗真菌活性和分子对接研究

少儿华语教学主题分类词表构建

京津冀协同发展视域下的邻避型群体性事件诱因分析

离子液体-TiO2体系选择性催化降解染料废水的研究

推进信息教育优化写字课堂

基于图像测距的汽车防撞系统关键技术研究

超顺磁性Fe_3O_4微粒的尺寸调控与磁性回收

行业发展对高职水利类专业人才培养的影响——以重庆水利电力职业技术学院为例

隧洞围岩空间随机分布特性对隧洞稳定性的影响研究

基层校园足球运动应树立的核心价值观研究

地方高等院校加强科研经费管理研究

地方高校与社区教育课程资源共建共享模式探究——基于微课平台

人血白蛋白对新生儿高胆红素血症的临床疗效评价

浅黄色方柱石化学成分及热处理结果分析

成都市大邑县居民的口腔卫生现状及其因素的调查

基于B/S模式的投票系统的研究与开发

互联网＋时代的人文学科学习范式构建

石墨烯及其复合材料吸附降解有机污染物的研究进展

高职水分析化学教学探索

幼师语言表演模块化教学研究

推进“四个一体化”建设,培养应用型人才

畜禽类血清的应用研究进展

农产品及农业废弃物中雌激素检测方法的研究

互联网＋时代马克思主义哲学研究的困境与出路

黑参对昆明种小鼠的抗疲劳作用研究

IGF-1在妊娠期糖尿病胎盘组织中的表达及其对新生儿T淋巴细胞亚群的影响

高桩码头二次受碰损伤发展的三维数值模拟分析

玉米须总DNA提取方法的建立

基于Shiro的某高校科研信息管理系统的设计与实现

媒体融合形势下思想政治工作形式创新研究——以当代大学生思想政治工作的开展为例

外语教师专业发展的生态环境研究

反式七元瓜环与N,N'-二苄基-4,4'-联吡啶氯化物的络合行为研究

美国通识教育改革与发展：基于芝加哥大学的案例研究

京津冀一体化背景下网络舆情分析与应对

期刊信息

《抗感染药学》

主管单位:江苏省卫生和计划生育委员会
主办单位:江苏省苏州市第五人民医院
主编：丁龙其
地址：江苏省苏州市南门西二路2号
邮编：215007
邮箱：KGRYX@126.COM
电话：0512-62766009

国际标准刊号：ISSN：1672-7878
国内统一刊号：ISSN：32-1726/R
邮发代号:28-194

获奖情况:

国内外数据库收录:

被引量:3645