位置:成果数据库 > 期刊 > 期刊详情页
用于改善web搜索的结构化数据抽取技术
  • ISSN号:1003-7985
  • 期刊名称:《东南大学学报:英文版》
  • 时间:0
  • 分类:TP311[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]东北大学信息科学与工程学院,沈阳110004
  • 相关基金:Program for New Century Excellent Talents in University(No. NCET-06-0290), the National Natural Science Foundation of China (No. 60503036), the Fok Ying Tong Education Foundation Award( No. 104027).
中文摘要:

为了提高web文本搜索质量,提出了基于语义结构化数据的查询扩展方法.通过分析属性的语义特征(文档频率特征和辨识能力特征)将属性分为概念属性、背景属性和无用属性3类,并且提出了衡量属性语义相关度的标准.设计了trie-bitmap和pair pointer table数据结构来实现发掘属性语义特征和检测属性语义相关度的有效算法.通过使用合适的属性和它们的语义关系,可以为查询关键字生成扩展词并将它们嵌入到具有插值参数的向量空间模型中.实验使用IMDB电影数据库和真实文本数据集来比较所提方法和原始向量空间模型的性能.实验结果证明所提出的查询扩展方法可以有效地提高文本搜索性能,同时属性语义特征和属性语义相关度都具有良好的分类能力.

英文摘要:

In order to improve the quality of web search,a new query expansion method by choosing meaningful structure data from a domain database is proposed.It categories attributes into three different classes,named as concept attribute,context attribute and meaningless attribute,according to their semantic features which are document frequency features and distinguishing capability features.It also defines the semantic relevance between two attributes when they have correlations in the database.Then it proposes trie-bitmap structure and pair pointer tables to implement efficient algorithms for discovering attribute semantic feature and detecting their semantic relevances.By using semantic attributes and their semantic relevances,expansion words can be generated and embedded into a vector space model with interpolation parameters.The experiments use an IMDB movie database and real texts collections to evaluate the proposed method by comparing its performance with a classical vector space model.The results show that the proposed method can improve text search efficiently and also improve both semantic features and semantic relevances with good separation capabilities.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《东南大学学报:英文版》
  • 主管单位:教育部
  • 主办单位:东南大学
  • 主编:毛善锋
  • 地址:南京市四牌楼2号
  • 邮编:210096
  • 邮箱:xuebao@seu.edu.cn
  • 电话:025-83794323 83794343传
  • 国际标准刊号:ISSN:1003-7985
  • 国内统一刊号:ISSN:32-1325/N
  • 邮发代号:
  • 获奖情况:
  • 2010年和2012年荣获第三届和第四届中国高校优秀科...
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库
  • 被引量:493