东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

使用特征文本密度的网页正文提取

ISSN号：1002-8331
期刊名称：《计算机工程与应用》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院计算机网络信息中心,北京100190, [2]中国科学院研究生院,北京100049
相关基金：国家高技术研究发展计划（863）No.2006AA01A120; 中科院信息化项目No.INFO-115-D01; CNIC青年基金项目No.CNIC_QN_09005

作者：王少康[1,2], 董科军[1], 阎保平[1]

关键词：文本密度, 文本特征, 信息抽取, 网页, text density, text feature, information extraction, web page

中文摘要：

针对当前互联网网页越来越多样化、复杂化、非规范化的特点,提出了基于特征文本密度的网页正文提取方法。该方法将网页包含的文本根据用途和特征进行分类,并构建数学模型进行比例密度分析,从而精确地识别出主题文本。该方法的时间和空间复杂度均较低。实验显示,它能有效地抽取复杂网页以及多主题段网页的正文信息,具有很好的通用性。

英文摘要：

The current web pages are getting more and more diverse,complex and non-standardized which makes the information extraction more difficult,the paper proposes a web content information extraction method based on density of feature text,which classifies the page text according to its usage and features,and constructs mathematical models to analyze the text proportion and density,thus identifies the content information accurately.The method has rather low time and space complexity.Experiments show that it can extract content information effectively from complex and multi-topic web pages and has a wide applicability.

同期刊论文项目

　科学数据网格及科研应用系统

期刊论文 31

同项目期刊论文

CMS网格应用系统的研究和建设

《天文学名词》数据库新版网站设计与实现

FITS文件管理器设计与实现

面向本地分布式存储系统的动态副本策略

基于Lustre的BES集群存储系统

AFS在高能物理计算系统中的应用

充分利用现代信息技术开展科技名词工作

基于约束的混合属性增量聚类算法

海量存储系统元数据服务器的设计及性能优化

海量分级存储系统中磁带访问性能优化

基于SkipGraph的P2P覆盖网信任证链发现

虚拟天文台数据访问系统（VO—DAS）任务调度设计与实现

数据库结果集的一种块状读取算法

基于CNGrid的科研协同平台多学科网格应用

科研在线:云服务模式的网络虚拟科研环境

面向云服务的科研协同平台研究

基于语句节奏特征的作者身份识别研究

一种文献元数据搜索与共享系统

混合属性数据流的两阶段入侵检测算法

科学数据网格研究进展

基于开放互操作标准的分布式地理空间模型共享研究

可处理混合属性的任意形状聚类

基于NETCONF的WSN网络管理系统设计

基于SOA的地球系统科学数据共享平台架构设计与实现

基于MapReduce的分布式地形数据计算研究

基于RIA的在线实验室数据管理系统

基于Duckling应用集成框架的数据集成与共享工具DLM

地学e-Science研究与实践——以东北亚联合科学考察与合作研究平台构建为例

基于Web的鸟类视频监控系统研究与实现

期刊信息

《计算机工程与应用》
北大核心期刊（2014版）

主管单位:中国电子科技集团公司
主办单位:华北计算技术研究所
主编：怀进鹏
地址：北京市海淀区北四环中路211号北京619信箱26分箱
邮编：100083
邮箱：ceaj@vip.163.com
电话：

国际标准刊号：ISSN：1002-8331
国内统一刊号：ISSN：11-2127/TP
邮发代号:82-605

获奖情况:
1. 2012年首批获得中国学术文献评价中心发布的 “...,2. 2001年获得新闻出版署“中国期刊方阵双效期刊”,3. 2008年首批入选国家科技部“中国精品科技期刊...,4.2003年-2011年连续获得工业和信息化部期刊最高...

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:97887