位置:成果数据库 > 期刊 > 期刊详情页
基于文档重要度的静态索引剪枝方法
  • ISSN号:1000-565X
  • 期刊名称:《华南理工大学学报:自然科学版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]北京大学信息科学技术学院,北京100871
  • 相关基金:国家自然科学基金资助项目(60933004); 广东省计算机网络重点实验室资助项目(CCNL200601); “核心电子器件、高端通用芯片及基础软件产品”国家科技重大专项项目(2011ZX01042-001-001)
中文摘要:

针对网页质量参差不齐、重要程度差别巨大的问题,提出了按照网页重要程度确定其剪枝幅度的静态索引剪枝方法,并在GOV2数据集上进行了验证.实验结果表明:这种方法体现了静态索引剪枝能极大降低存储需求、提高查询效率的优点;当剪枝后的索引大小是原始大小的13%时,P@10、P@20值能达到甚至超过使用完整索引时的结果;在相同的剪枝幅度下,P@10、P@20和MAP都明显好于以往的剪枝方法.

英文摘要:

As the quality and importance of Web pages are both variable,this paper proposes a static index pruning method which uses the web page importance to determine the ratio of information kept for each document.The result of experiments on GOV2 dataset show that(1) the proposed method greatly reduces the storage size and speeds up the search;(2) when the pruned index takes only 13% of the original size,P@10 and P@20 reach or exceed the baseline using full index;and(3) by using the proposed method,P@10,P@20 and MAP are all better than those of the traditional method at the same pruning level.

同期刊论文项目
期刊论文 74 会议论文 88 专利 1 著作 2
同项目期刊论文
期刊信息
  • 《华南理工大学学报:自然科学版》
  • 北大核心期刊(2011版)
  • 主管单位:国家教育部科技司
  • 主办单位:华南理工大学
  • 主编:李元元
  • 地址:广州市天河区五山路华南理工大学17号楼
  • 邮编:510640
  • 邮箱:journal@scut.edu.cn
  • 电话:
  • 国际标准刊号:ISSN:1000-565X
  • 国内统一刊号:ISSN:44-1251/T
  • 邮发代号:46-174
  • 获奖情况:
  • 本学报荣获1996年国家教委系统优秀科技期刊二等奖...,1999年荣获全国优秀高校自然科学学报及教育部优秀...,2001年荣获广东省优秀期刊奖和广东省优秀科技期刊...,2004年获全国高校优秀科技期刊二等奖,2006年获首届教育部优秀科技期刊奖,2008年荣获第二届教育部优秀科技期刊奖
  • 国内外数据库收录:
  • 俄罗斯文摘杂志,美国化学文摘(网络版),荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:22954