东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于多特征融合的网页正文信息抽取

ISSN号：1000-386X
期刊名称：计算机应用与软件
时间：0
页码：-
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]西南交通大学信息科学与技术学院,思维与智慧研究所,四川成都610031
相关基金：国家自然科学基金项目（61152001,61170111）; 中国科学院自动化研究所复杂系统管理与控制重点实验室开放课题（20110102）
相关项目：基于人机共建智慧平台的语义搜索引擎

作者：刘利|戴齐|尹红风|贾真|胡万亭|

关键词：单正文体, 多正文体, 多特征, 信息抽取, Single text body, Muhiple text body, Heterogeneous features, Information extraction

中文摘要：

当今主流网页分为单正文体网页和多正文体网页。这些网页的正文信息都具有多个正文特征。想要准确定位正文信息所在位置,可以从其所具有的多个特征和网页设计者的设计习惯着手。鉴于此,融合这些特征提出一种基于多特征融合的网页正文信息抽取方法。实验结果表明,该方法对单正文体网页和多正文体网页的正文抽取具有较高的准确率和通用性,很好地适应了风格多样的网页。

英文摘要：

Nowadays, the mainstream webpages are divided into single text body webpages and multiple text body webpages. These webpages text information all have the heterogeneous text features. In order to accurately position the location of text information, one can commence from the heterogeneous features they possess and the design habits of the web designers. Therefore, in this paper, we fuse these features and present a webpages text information extraction method which is based on heterogeneous features fusion. Experimental results show that the method has higher accuracy rate and universality for extracting the texts from single test body webpages and multiple text body webpages, fits well the webpages with a variety of styles.

同期刊论文项目

基于半监督学习的聚类集成机理及高效算法研究

期刊论文 66 会议论文 38 获奖 20 著作 4

基于人机共建智慧平台的语义搜索引擎

期刊论文 12 会议论文 7

同项目期刊论文

Exploiting empirical variance for data stream classification

信息检索中一种句子相似度的计算方法

基于规则的百科人物属性抽取

Zipf定律与网络信息计量学

中文网络百科开放分类层次结构树及其聚类算法研究

一种基于词频统计的组织机构名识别方法

一种基于Apriori的搜索建议关键字提取算法

一种改进的基于树路径匹配的网页结构相似度算法

基于 SimRank 的百度百科词条语义相似度计算

基于模糊支持向量的多标签分类方法

一种聚类集成差异性度量方法

Fault Diagnosis in High-speed Train Running Gears with improved Deep Belief Networks

A Rough Set-Based Method for Updating Decision Rules on Attribute Values’ Coarsening and Refining

基于SimRank的百度百科词条语义相似度计算

生物识别与安全技术

一种基于语义扩展的短问题分类方法

一种基于链接的模糊聚类集成方法

信息检索中一种句子相似度的计算方法

基于属性最大间隔的子空间聚类

基于聚类集成的高铁故障诊断分析

基于规则的百科人物属性抽取

一种基于数据相关性的半监督模糊聚类集成方法

聚类集成时机的确定

基于语义扩展的句子相似度算法

一种新的软聚类投票法及其并行化实现

基于RDDs的分布式聚类集成算法

Parallel Semi-supervised Multi-Ant Colonies Clustering Ensemble Based on MapReduce Methodology

基于语义扩展的短问题分类

Semi-supervised evolutionary ensembles for Web video categorization

基于规则的汉语兼类词标注方法

Bayesian image segmentation fusion

基于SimRank的百科词条语义相似度计算

A rough set-based method for updating decision rules on attribute values' coarsening and ref

一种基于词频统计的组织机构名识别方法

蚁群聚类算法的并行化设计与实现

An Improved Cop-Kmeans Clustering for Solving Constraint Violation Based on MapReduce Framework

基于近似熵及EMD的高铁故障诊断

Semi-supervised hierarchical clustering ensemble and its application

基于弱监督学习的中文百科数据属性抽取

一种基于数据关联的聚类集成方法

基于 SimRank 的百度百科词条语义相似度计算

基于链接的模糊聚类集成方法

基于属性依赖的混合约束半监督特征选择

基于弱监督的属性关系抽取方法

期刊信息

《计算机应用与软件》
北大核心期刊（2011版）

主管单位:上海科学院
主办单位:上海市计算技术研究所上海计算机软件技术开发中心
主编：朱三元
地址：上海市愚园路546号
邮编：200040
邮箱：cas@sict.stc.sh.cn
电话：021-62254715 62520070-505

国际标准刊号：ISSN：1000-386X
国内统一刊号：ISSN：31-1260/TP
邮发代号:4-379

获奖情况:
全国计算机类中文核心期刊

国内外数据库收录:
波兰哥白尼索引,美国剑桥科学文摘,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2011版）,中国北大核心期刊（2000版）

被引量:27463