位置:成果数据库 > 期刊 > 期刊详情页
基于本体实例信息的深度网表单属性自动抽取
  • ISSN号:1000-1220
  • 期刊名称:《小型微型计算机系统》
  • 时间:0
  • 分类:TP393[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]吉林大学计算机科学与技术学院,吉林长春130012, [2]长春税务学院信息系,吉林长春130117, [3]符号计算与知识工程教育部重点实验室,吉林长春130012
  • 相关基金:自然科学基金项目(60373099;60873235)资助;国家教育部高等学校博士学科点专项科研基金项目(200801830021)资助;吉林省科技发展基金项目(20070533;20080318)资助;新世纪高校杰出青年基金项目(NCET-06-0300)资助.
中文摘要:

Deep Web是隐藏在Surface Web之后的信息提供者,而且在Deep Web之中还隐藏着更大量的信息.目前,对Deep Web中的信息进行有效的获取的可行方法是通过Deep Web提供的查询接口对其进行访问.自动抽取查询接口中的属性并生成正确的查询条件是提升访问Deep Web能力的有效方法.查询接口中属性之间存在着不同的语义约束关系,如互斥和共存.为了生成有效的查询条件,必须发现并协调关键属性间的语义关系.为了解决些问题,提出一个基于本体技术并充分利用实例信息的表单属性自动抽取方法,在这一方法中使用WordNet来丰富抽取出的关键属性并发现表单中属性间的语义关系.在属性抽取过程中,每个属性被拓展生成一个备选属性集并且以树型数据结构存储,而且备选属性树可以有效的描述属性间的语义关系.在现实领域中的试验证明,这一框架结构可以自动的抽取Deep Web表单属性并有效的生成查询条件.

英文摘要:

The Deep Web is behi-nd the Surface Web and more information is hidden in it. The search engines and the web crawlers can not access the Deep Web directly. The only and workable way to access the hidden database is through query interface. Automatic extracting attributes from the query interface and translating a query is a solvable way for addressing the current limitations in accessing Deep Web data sources. The query interface provides semantic constraints, some attributes are co-occurred and the others are exclusive sometimes. To generate a valid query, we have to reconcile the key attributes and semantic relation between them. We design a framework to automatically extract the attributes from the query interface taking full advantage of instance information and use the WordNet as a kind of ontology technique to enrich the attributes embedded in the semantic query interface. Each attribute is extended into a candidate attribute set in the form of a hierarchy tree. We carry out our experiments in the real-world domain. The results of the experiments showed the validation of query translation framework.

同期刊论文项目
期刊论文 39 会议论文 21
期刊论文 42 会议论文 18
同项目期刊论文
期刊信息
  • 《小型微型计算机系统》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院沈阳计算技术研究所
  • 主编:林浒
  • 地址:沈阳市浑南新区南屏东路16号
  • 邮编:110168
  • 邮箱:xwjxt@sict.ac.cn
  • 电话:024-24696120 024-24696190-8870
  • 国际标准刊号:ISSN:1000-1220
  • 国内统一刊号:ISSN:21-1106/TP
  • 邮发代号:8-108
  • 获奖情况:
  • 中国自然科学核心期刊,中国科学引文数据库来源期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:23212