东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于本体实例信息的深度网表单属性自动抽取

ISSN号：1000-1220
期刊名称：《小型微型计算机系统》
时间：0
分类：TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]吉林大学计算机科学与技术学院,吉林长春130012, [2]长春税务学院信息系,吉林长春130117, [3]符号计算与知识工程教育部重点实验室,吉林长春130012
相关基金：自然科学基金项目（60373099;60873235）资助;国家教育部高等学校博士学科点专项科研基金项目（200801830021）资助;吉林省科技发展基金项目（20070533;20080318）资助;新世纪高校杰出青年基金项目（NCET-06-0300）资助.

关键词： DEEP, WEB, Surface, WEB, 查询接口, WORDNET, 本体, deep web , surface web, query interface, wordNet, ontology

中文摘要：

Deep Web是隐藏在Surface Web之后的信息提供者，而且在Deep Web之中还隐藏着更大量的信息．目前，对Deep Web中的信息进行有效的获取的可行方法是通过Deep Web提供的查询接口对其进行访问．自动抽取查询接口中的属性并生成正确的查询条件是提升访问Deep Web能力的有效方法．查询接口中属性之间存在着不同的语义约束关系，如互斥和共存．为了生成有效的查询条件，必须发现并协调关键属性间的语义关系．为了解决些问题，提出一个基于本体技术并充分利用实例信息的表单属性自动抽取方法，在这一方法中使用WordNet来丰富抽取出的关键属性并发现表单中属性间的语义关系．在属性抽取过程中，每个属性被拓展生成一个备选属性集并且以树型数据结构存储，而且备选属性树可以有效的描述属性间的语义关系．在现实领域中的试验证明，这一框架结构可以自动的抽取Deep Web表单属性并有效的生成查询条件．

英文摘要：

The Deep Web is behi-nd the Surface Web and more information is hidden in it. The search engines and the web crawlers can not access the Deep Web directly. The only and workable way to access the hidden database is through query interface. Automatic extracting attributes from the query interface and translating a query is a solvable way for addressing the current limitations in accessing Deep Web data sources. The query interface provides semantic constraints, some attributes are co-occurred and the others are exclusive sometimes. To generate a valid query, we have to reconcile the key attributes and semantic relation between them. We design a framework to automatically extract the attributes from the query interface taking full advantage of instance information and use the WordNet as a kind of ontology technique to enrich the attributes embedded in the semantic query interface. Each attribute is extended into a candidate attribute set in the form of a hierarchy tree. We carry out our experiments in the real-world domain. The results of the experiments showed the validation of query translation framework.

同期刊论文项目

具有增量特性的移动式主题爬行技术

期刊论文 39 会议论文 21

多步入侵警报的综合关联系统

期刊论文 42 会议论文 18

同项目期刊论文

Pattern matching with wildcards using words of shorter length

HSTCP: A High-speed Traffic Collection Platform for Intrusion Detection/Prevention Based on Sampling

WEIGHTED AUTOMATA FOR FULL-TEXT INDEXING

A Nu-support vector regression based system for grid resource monitoring and prediction

A Time-stamp Frequent Pattern-based Clustering Method for Anomaly Detection

A faster algorithm for matching a set of patterns with variable length don';t cares

基于身份的商品双重防伪机制

基于数据仓库的销售数据可视化分析系统

入侵防御系统可信通信协议的设计与实现

基于Web日志挖掘的网页推荐方法

计算机取证综述

ADIC: an anomaly detection algorithm using incremental clustering

Parameter selection in time series prediction based on nu-support vector regression

单向性策略与AES密钥生成算法的改进

基于异常检测的入侵检测技术

基于人工免疫的网络安全监控系统

基于改进密度聚类的异常检测算法

入侵容忍综述

计算网格中经济模型的应用策略

异构信任域的跨域授权

Efficient identity-based broadcast encryption without random oracles

A time stamped clustering method for intrusion detection

Modeling and optimizing host load prediction

Improvement on intrusion detection technology based on protocol analysis and pattern matching

基于遗传算法优化支持向量回归机的网格负载预测模型

网格资源监测与预报系统的设计与实现

基于人工免疫模型的入侵检测系统中检测器生成算法的分析与改进

Rijndael密钥生成算法存在的问题与改进

入侵检测系统评估技术研究

基于交通禁则与道路等级因子的路径规划启发式函数

IBE体系的密钥管理机制

基于身份密码学的安全性研究综述

Fermi架构下的SPSO算法加速

一种基于入侵场景的可视化呈现系统

一种全文索引的压缩方法

基于线性规划的网络流量流向控制策略

A Nu-support Vector Regression Based System for Grid Resource Monitoring and Prediction

基于Petri网的分布式网络单元流量优化

Parameter selection in time series prediction based on nu-support vector regression

高性能网页索引器JU_Indexer的实

基于粒子群优化算法的网页分类技

A New PU Learning Algorithm fo

一种基于后缀数组的无词典分词方

基于颜色分块全局直方图的图像检

Automatic Text Classification

DNNS: 一种基于动态近邻选择模型

A New Framework for Focused We

基于质心与本体的文本分类方法

基于FP-Growth算法的DDoS检测

Data Mining for Network Intrus

Using ontology semantics to im

AS-ROCK: 一种基于公共近邻结合

字典与统计相结合的中文分词方法

SVM Classifier　Guided for Foc

基于统计规则的交集型歧义处理方

XML clustering based on common

在线增量标签主题模型

一种基于质心与本体的文本分类方法

基于可视布局信息的网页噪音去除算法

基于颜色分块全局直方图的图像检索方法及系统实现

基于多核环境的并行性双向枚举连接

高性能网页索引器JU_Indexer的实现

双获胜节点SOM及其在TSP中的应用

一种基于动态近邻选择模型的聚类算法

基于粒子群优化的大气质量评价模型

基于模式图的规范化XML模式设计

PSO算法优化的大气质量评价的普适公式

引入惩罚收益因素OIF Elman神经网络及其应用

基于主题的网页噪音去除机制

多维概念格与多维序列模式的增量挖掘

基于粒子群优化算法的网页分类技术

使用分类器自动发现特定领域的深度网入口

一种改进的Eiman神经网络及其在股市中的应用

使用本体语义提高文本聚类

OIF Elman神经网络在股市综合指数预测中的应用

A New Framework for Focused Web Crawling

基于动态链接库实现软件界面组件化方法研究

期刊信息

《小型微型计算机系统》
中国科技核心期刊

主管单位:中国科学院
主办单位:中国科学院沈阳计算技术研究所
主编：林浒
地址：沈阳市浑南新区南屏东路16号
邮编：110168
邮箱：xwjxt@sict.ac.cn
电话：024-24696120 024-24696190-8870

国际标准刊号：ISSN：1000-1220
国内统一刊号：ISSN：21-1106/TP
邮发代号:8-108

获奖情况:
中国自然科学核心期刊,中国科学引文数据库来源期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:23212