位置:成果数据库 > 期刊 > 期刊详情页
网页质量评价体系的研究
  • 期刊名称:中文信息学报
  • 时间:0
  • 页码:3-8
  • 语言:中文
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]智能技术与系统国家重点实验室清华信息科学与技术国家实验室(筹)清华大学计算机科学与技术系,北京100084
  • 相关基金:自然科学基金资助项目(60736044,60903107,61073071); 高等学校博士学科点专项科研基金资助项目(20090002120005)
  • 相关项目:下一代信息检索研究
中文摘要:

网络数据的飞速增长为搜索引擎带来了巨大的存储和网络服务压力,大量冗余、低质量乃至垃圾数据造成了搜索引擎存储与运算能力的巨大浪费,在这种情况下,如何建立适合万维网实际应用环境的网页数据质量评估体系与评估算法成为了信息检索领域的重要研究课题。在前人工作的基础上,通过网络用户及网页设计人员的参与,文章提出了包括权威知名度、内容、时效性和网页外观呈现四个维度十三个因素的网页质量评价体系;标注数据显示我们的网页质量评价体系具有较强的可操作性,标注结果比较一致;文章最后使用Ordinal Logistic Regres-sion模型对评价体系的各个维度的重要性进行了分析并得出了一些启发性的结论:互联网网页内容和实效性能否满足用户需求是决定其质量的重要因素。

英文摘要:

The rapid growth of Web data poses a great challenge in both storage and service quality for search engines.The existence of low-quality web pages,or rather spam pages,increases the cost of crawling,indexing,and storage in search engines.This paper presents a measure of Web page quality with 4 dimensions: authority,content,timeliness and appearance.Human assessors are recruited to rate the sampled pages using this evaluation framework.High inter-rater reliability of the rating results showed that the framework is consistent and functional.Finally,Ordinal Logistic Regression analyses were conducted to model the relationship between the 4 core dimensions and quality of Web pages.

同期刊论文项目
期刊论文 49 会议论文 19 获奖 1 著作 1
期刊论文 117 会议论文 76 专利 12 著作 3
期刊论文 30 会议论文 35 专利 10
同项目期刊论文