东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于主题的网页噪音去除机制

ISSN号：1000-7024
期刊名称：《计算机工程与设计》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]吉林大学计算机科学与技术学院教育部符号计算与知识工程重点实验室,吉林长春130012
相关基金：国家自然科学基金项目（60373099）;教育部“符号计算与知识工程”重点实验室基金项目（93K-17）.

作者：万乐[1], 左万利[1], 高金[1]

关键词： WEB网页, 噪音去除, 信息提取, 预处理, web pages, noise removal, information extraction, preprocessing

中文摘要：

由于主题的缺失,传统的网页噪音去除算法均是通过一些启发式的规则判断哪些是有用信息,哪些是噪音信息。而在主题爬行的环境下,由于有了明确的主题,可以使用一些不同的方法来发现网页噪音。提出了一种基于主题的网页噪音去除算法,通过构造网页DOM树的一个变种,即内容块树,利用分类器判断网页的噪音块。实验结果表明,该方法噪音去除精度是87%,而以前的方法仅有42%。

英文摘要：

In the absence of topic, traditional web page noise removal algorithm judges content block which one is noise and which one is not with some heuristic rules. But within the environment of focused crawling, clear topic presents, higher precision and better effect is achieved in a different way. A noise removal algorithm based on focused topic is proposed. After a variation of DOM （doCument object module） tree of web pages is constructed, i.e. content block tree, noise segment will be judged by a trained classifier. Experimental results demonstrate that the precision of our method is 87%, which is much better than previous method whose precision is 42%.

同期刊论文项目

具有增量特性的移动式主题爬行技术

期刊论文 39 会议论文 21

同项目期刊论文

高性能网页索引器JU_Indexer的实

基于粒子群优化算法的网页分类技

A New PU Learning Algorithm fo

一种基于后缀数组的无词典分词方

基于颜色分块全局直方图的图像检

Automatic Text Classification

DNNS: 一种基于动态近邻选择模型

A New Framework for Focused We

基于质心与本体的文本分类方法

基于FP-Growth算法的DDoS检测

Data Mining for Network Intrus

Using ontology semantics to im

AS-ROCK: 一种基于公共近邻结合

字典与统计相结合的中文分词方法

SVM Classifier　Guided for Foc

基于统计规则的交集型歧义处理方

XML clustering based on common

在线增量标签主题模型

基于本体实例信息的深度网表单属性自动抽取

一种基于质心与本体的文本分类方法

基于可视布局信息的网页噪音去除算法

基于颜色分块全局直方图的图像检索方法及系统实现

基于多核环境的并行性双向枚举连接

高性能网页索引器JU_Indexer的实现

双获胜节点SOM及其在TSP中的应用

一种基于动态近邻选择模型的聚类算法

基于粒子群优化的大气质量评价模型

基于模式图的规范化XML模式设计

PSO算法优化的大气质量评价的普适公式

引入惩罚收益因素OIF Elman神经网络及其应用

多维概念格与多维序列模式的增量挖掘

基于粒子群优化算法的网页分类技术

使用分类器自动发现特定领域的深度网入口

一种改进的Eiman神经网络及其在股市中的应用

使用本体语义提高文本聚类

OIF Elman神经网络在股市综合指数预测中的应用

A New Framework for Focused Web Crawling

基于动态链接库实现软件界面组件化方法研究

期刊信息

《计算机工程与设计》
北大核心期刊（2011版）

主管单位:中国航天科工集团
主办单位:中国航天科工集团二院706所
主编：汤铭瑞
地址：北京142信箱37分箱
邮编：100854
邮箱：ced@china-ced.com
电话：010-68389884

国际标准刊号：ISSN：1000-7024
国内统一刊号：ISSN：11-1775/TP
邮发代号:82-425

获奖情况:
中国科学引文数据库来源期刊,中国学术期刊综合评价数据库来源期刊,中国科技论文统计与分析用期刊

国内外数据库收录:
波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）

被引量:45616