位置:成果数据库 > 期刊 > 期刊详情页
一种基于PLSA的高效检索方法
  • ISSN号:1671-4512
  • 期刊名称:《华中科技大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]中南财经政法大学信息与安全工程学院,湖北武汉430073, [2]华中科技大学计算机科学与技术学院,湖北武汉430074
  • 相关基金:国家自然科学基金资助项目(10876012)
中文摘要:

为克服概率潜在语义索引在存储效率和查询速度方面的不足,引入概率潜在语义词典(PLSD)概念,建立词汇之间的关联矩阵代替词汇文档矩阵.提出一种文档分值计算方法,以及词典中每个词汇的概率计算方法,用以获取相关的查询词汇,从而生成新的查询.实验表明:PLSD的引入消除了概率潜在语义分析对文档的依赖,通过调整文档阂值和词汇筛选等方法,可以在保证查准率的前提下,大幅度减少检索系统占用的存储空间.

英文摘要:

To overcome the limitations of PLSI (probabilistic latent semantic index) in storage efficiency and query speed, the probabilistic latent semantic dictionary (PLSD) is presented. It is a matrix containing the relationships between terms instead of relationships between terms and documents. A document score calculation method and a term probability calculation method are provided to extract query terms from documents and then a new query could be generated. The time complexity of PLSD query is demonstrated much smaller than that of PLSI. The experimental result is proven that this melhod could completely eliminate document dependence of the probabilistic latent semantic analysis. By means of adjusting document threshold and pruning such unused data, PLSD could significantly reduce the storage space of retrieval system and improve query speed under the premise of ensuring retrieval precision.

同期刊论文项目
期刊论文 17 会议论文 7
同项目期刊论文
期刊信息
  • 《华中科技大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:中华人民共和国教育部
  • 主办单位:华中科技大学
  • 主编:丁烈云
  • 地址:武汉珞喻路1037号
  • 邮编:430074
  • 邮箱:hgxbs@mail.hust.edu.cn
  • 电话:027-87543916 87544294
  • 国际标准刊号:ISSN:1671-4512
  • 国内统一刊号:ISSN:42-1658/N
  • 邮发代号:38-9
  • 获奖情况:
  • 全国优秀科技期刊,首届国家期刊奖,第二届全国优秀科技期刊评比一等奖,中国期刊方阵“双效”期刊
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版)
  • 被引量:21013