位置:成果数据库 > 期刊 > 期刊详情页
面向混合类型关键词查询的非合作结构化深网数据源选择
  • ISSN号:1000-1239
  • 期刊名称:计算机研究与发展
  • 时间:2014.4.15
  • 页码:905-917
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]江西财经大学信息管理学院,南昌330013, [2]江西财经大学数据与知识工程江西省高校重点实验室,南昌330013
  • 相关基金:国家自然科学基金项目(61173146,61363010,61363039);江西省高等学校科技落地计划项目(产学研合作)(KJLD12022);江西省教育厅科技研究项目(GJJ12733,GJJ13249)
  • 相关项目:基于用户反馈的Web数据集成中的数据质量管理
中文摘要:

为有效地利用深网中的资源,深网集成应运而生.为了提高深网集成的效率和返回结果的质量,数据源选择成为深网集成的关键技术.深网数据源大多数是结构化和非合作型的.当前已有的非合作结构化深网数据源选择的研究分为2类:一类是面向离散型关键词查询的源选择;另一类是面向字符型关键词查询的源选择,而未见面向混合类型关键词查询的结构化数据源选择的相关研究.基于此,将用户查询关键词分为检索型关键词和约束型关键词,基于主题词与主题词、主题词与特征词和直方图与直方图的关联特征构建了面向检索型、约束型混合关键词查询的层次化数据源摘要,有效地反映了非合作结构化深网数据源选择中检索型关键词的检索意图和约束型关键词的约束相关性,并依据此摘要给出了相应的数据源选择策略.实验结果表明,该方法在面向混合类型关键词查询的非合作结构化深网数据源选择时具有较好的记录召回率及准确率.

英文摘要:

In order to efficiently utilize the resources in deep Web,data integration of deep Web emerges as the times require.Data source selection becomes one of the key technologies in data integration of deep Web because it is helpful to improve the efficiency of deep Web integration and the quality of returned results.Most of deep Web data sources are structured and non-cooperative.Recent research findings of non-cooperative structured deep Web selection are divided into two categories,one is based on the discrete keyword retrieval,and the other is based on the character keyword retrieval.As far as I am concerned,there is no data source selection method considering above two type keywords.In this paper,user query keywords are divided into retrieval-type keywords and constraint-type keywords.We use the association feature between subject headings,the association feature between subject heading and feature word,and the association feature between histograms,to construct the hierarchical data source summary.The summary can deal with the hybrid type keyword retrieval,which is made of retrieval-type keywords and constraint-type keywords.The summary can reflect the search intent of retrieval-type keywords and the binding character of constraint-type keywords.Finally,we also give a corresponding data source selection strategy based on above summary.The experiment results show that our method has good performance of record recall ratio and precision.

同期刊论文项目
期刊论文 44 会议论文 8 获奖 1
同项目期刊论文
期刊信息
  • 《计算机研究与发展》
  • 中国科技核心期刊
  • 主管单位:中国科学院
  • 主办单位:中国科学院计算技术研究所
  • 主编:徐志伟
  • 地址:北京市科学院南路6号中科院计算所
  • 邮编:100190
  • 邮箱:crad@ict.ac.cn
  • 电话:010-62620696 62600350
  • 国际标准刊号:ISSN:1000-1239
  • 国内统一刊号:ISSN:11-1777/TP
  • 邮发代号:2-654
  • 获奖情况:
  • 2001-2007百种中国杰出学术期刊,2008中国精品科...,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,荷兰文摘与引文数据库,美国工程索引,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:40349