位置:成果数据库 > 期刊 > 期刊详情页
网页特征获取方法及其在网页搜索中的应用
  • ISSN号:1003-7985
  • 期刊名称:《东南大学学报:英文版》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]西安交通大学计算机科学与技术系,西安710049
  • 相关基金:The National Natural Science Foundation of China ( No. 60673087).
中文摘要:

针对大规模网页相关性排序工作中使用的多来源网页信息形式多样、利用困难的问题,提出了一种新的自动网页特征获取方法.该方法利用一组事先定义好的规则自动地从网页中获取相关性特征,这些特征可以有效地表达网页的实际内容并改善搜索引擎的排序性能.该方法所获取的网页相关性特征具有格式统一、噪声数据少的特点,能够非常方便地应用于网页的相关性排序.为了评价网页特征和用户查询之间的相关性,还提出了一个特征级别的相关性判定标准.最后,实验结果证明了所提出的特征获取方法和特征相关性等级判定标准对于提升搜索引擎的排序性能具有显著的作用.

英文摘要:

Focusing on the problem that it is hard to utilize the web multi-fields information with various forms in large scale web search,a novel approach,which can automatically acquire features from web pages based on a set of well defined rules,is proposed.The features describe the contents of web pages from different aspects and they can be used to improve the ranking performance for web search.The acquired feature has the advantages of unified form and less noise,and can easily be used in web page relevance ranking.A special specs for judging the relevance between user queries and acquired features is also proposed.Experimental results show that the features acquired by the proposed approach and the feature relevance specs can significantly improve the relevance ranking performance for web search.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《东南大学学报:英文版》
  • 主管单位:教育部
  • 主办单位:东南大学
  • 主编:毛善锋
  • 地址:南京市四牌楼2号
  • 邮编:210096
  • 邮箱:xuebao@seu.edu.cn
  • 电话:025-83794323 83794343传
  • 国际标准刊号:ISSN:1003-7985
  • 国内统一刊号:ISSN:32-1325/N
  • 邮发代号:
  • 获奖情况:
  • 2010年和2012年荣获第三届和第四届中国高校优秀科...
  • 国内外数据库收录:
  • 美国化学文摘(网络版),美国数学评论(网络版),德国数学文摘,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库
  • 被引量:493