东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

基于页面Block的Web档案采集和存储

期刊名称：宋杰、王大玲、鲍玉斌、申德荣，基于页面Block的Web档案采集和存储，软件学报，19(2)，275
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]东北大学信息科学与工程学院,辽宁沈阳100004
相关基金：Supported by the National Natural Science Foundation of China under Grant Nos.60573090, 60673139 （国家自然科学基金）
相关项目：面向新一代搜索引擎的用户动机推演模型的研究

关键词： Web档案, 页面分区, 页块, Web archive, page partition, page block

中文摘要：

提出了基于页面Block对Web页面的采集和存储方式，并详细表述了该方法如何完成基于布局页面分区、Block主题的抽取、版本和差异的比较以及增量存储的方式．实现了一个Web归档原型系统，并对所提出的算法进行了详细的测试．理论和实验表明，所提出的基于页面Block的Web档案（Web archive）采集和存储方法能够很好地适应Web档案的管理方式，并对基于Web档案的查询、搜索、知识发现和数据挖掘等应用提供有利的数据资源．

英文摘要：

In this paper, the page block based Web archive collecting and storing approach is proposed. The algorithms of layout-based page partition, extracting topic from block, version comparison and incremental storage implementation are introduced in detail. The prototype system is implemented and tested to verify the proposed approach. Theoretics and experiments show that, the proposed approach adapts the Web archive management well, and provides a valuable data resource to the Web archive based query, search, data mining and knowledge discovering applications.

同期刊论文项目

支持深层Web数据库网格的部分关键技术研究

期刊论文 38 会议论文 27 专利 2

面向新一代搜索引擎的用户动机推演模型的研究

期刊论文 54 会议论文 15

同项目期刊论文

一种应用于Deep Web结果页面中分页标签的识别方法

D-EEM:一种基于DOM树的Deep Web实体抽取机制

一种应用于Deep Web数据集成系统中的查询松弛策略

数据空间中数据组织模型以及数据资源间关联关系发现模型的研究

一种应用于 Deep web 环境下的重复记录识别模型

支持多领域动态数据集成的数据库网格系统

S-RSM:一种基于语义的数据空间资源搜索机制

一种基于不确定数据的挖掘频繁集方法

SKM:一种基于模式结构和已有匹配知识的模式匹配模型

Combining local scoring and global aggregation to rank entities for deep web queries

FAEW: Fully-automatic data extraction wrapper on deep web

一种基于虚拟工作空间的有状态网格服务副本复制方法

一种基于语义及统计分析的Deep Web实体识别机制

可能世界内数值型不确定数据匹配模型

Duplicate identification model for deep web

基于实例的Deep Web数据源结果模式匹配技术

面向用户的排序算法研究

支持个性化检索的User Profile研究概述

Study and Implementation of A New SQL-Based ETL Approach

分布式专家系统中时序控制的研究与设计

EFCS-Grid内基于P2P的分布聚类分析处理策略的研究

EFCS-Grid内支持网格数据服务管理的MultiChord框架

基于 Deep Web 响应页面的模式识别

支持 Web 深层数据库网格的部分关键技术的研究

基于用户行为模型的搜索引擎

一种面向多领域支持高可靠Web服务合成的服务发现模型

非数值型数据的数据库水印算法研究

一种基于语义及统计分析的DeepWeb实体识别机制

IBFS:一种基于模式匹配索引路由的广度优先的资源搜索机制

事务级入侵容忍数据库的控制和修复策略

KDS-CM： A Cache Mechanism Based on Top-K Data Source for Deep Web Query

Extracting Result Schema Based on Query Instances in the Deep Web

An Efficient Multi-Keyword Query Processing Strategy on P2P Based Web Search

一种deep web数据源下重复记录识别模型

支持多领域动态数据集成的数据库网格系统

基于PLSA的面向用户的网络搜索

数据流挖掘研究及其进展

可能世界内数值型不确定数据匹配模型

基于信息论的潜在概念获取与文本聚类

基于PLSA方法的用户兴趣聚类

一种基于CD-Tree的高效聚类算法

面向用户的排序算法研究

一种高效的基于图的MLCA求解方法

支持个性化检索的User Profile研究概述

一种优化的基于网格的聚类算法

An Algorithm of Document Refinement Based on Sentence Similarity Computation

基于用户行为模型的搜索引擎的研究

一种基于内容特性的文本聚类方法

面向层次类型变量的相异度量及聚类算法

BestBiblio: An Effective Web Bibliography Retrieval Tool

基于滑动窗口的支持泛在应用的流聚类挖掘算法

一种在线互相似流群发现方法

A PLSA-Based Approach Constructing User Profile for Personalized Search.

Study on Framework and Algorithms of Anomaly-Based Detecting for Semantic Web Service Security

An Approach of Word Sense Disambiguation in Contextless Queries

User-Oriented Web Search based on PLSA

基于楔的时间序列流双向封装过滤查询算法

模糊形式概念分析与模糊概念格

IncSNN——一种基于密度的增量聚类算法

有效的非完全结构XML查询

基于用户搜索意图的Web网页动态泛化

3个原型系统

基于混合语言模型的文档相似性计算模型

支持多约束的K-匿名化方法

A Probabilistic Text Clustering Algorithm Based on Dirichlet Mixture Model and Bayesian Discriminant

Study and Implementation of A New SQL-Based ETL Approach

基于句法结构特征分析及分类技术的答案提取算法

分布式专家系统中时序控制的研究与设计

基于最长顺序频繁词组的Web文献检索结构

一种基于划分的孤立点检测算法

基于双边界楔形区的时间序列流高效过滤查询算法

基于用户行为模型的搜索引擎

事务级入侵容忍数据库的控制和修复策略

KDS-CM： A Cache Mechanism Based on Top-K Data Source for Deep Web Query

Extracting Result Schema Based on Query Instances in the Deep Web

An Efficient Multi-Keyword Query Processing Strategy on P2P Based Web Search

基于灰度-单元差分共生矩阵的医学图像的检索与分类

基于兴趣点特征提取的医学图像分类

基于双层网格索引的移动对象KNN查询算法

Data Integration Strategy for Database Grids Based on P2P Framework

基于PLSA的面向用户的网络搜索