位置:成果数据库 > 期刊 > 期刊详情页
单位名录库更新:互联网大数据源及其数据质量评估
  • ISSN号:1002-4565
  • 期刊名称:《统计研究》
  • 时间:0
  • 分类:C816[社会学—统计学;经济管理]
  • 作者机构:[1]兰州财经大学统计学院, [2]国家统计局统计科学研究所, [3]兰州财经大学
  • 相关基金:国家自然科学基金项目“基于涵盖误差的我国周期性普查数据质量评估方法:理论与应用研究”(71301033)、国家社会科学基金青年项目“基于大数据整合的空气质量测度方法研究”(14CTJ009)、全国统计科研计划项目“基于普查涵盖误差测量技术的基本单位名录库维护与更新研究”(2011LX003)、陇原青年创新人才扶持计划项目“基于大数据整合的‘废旧数据’应用研究”(14GSD95)、甘肃省财政厅高校基本科研业务费项目“大数据整合下的统计调查技术及其经济应用研究”(GZl4007)资助.
中文摘要:

在大数据时代,互联网数据资源的充分利用对提高政府统计能力的影响是不可忽视的,但互联网数据质量问题值得探讨。以单位名录库为研究对象,本文讨论了互联网数据作为单位名录库更新数据源的质量评估方法,从多维度视角比较分析了互联网数据源与传统数据源的数据质量;从准确性方面探讨了互联网数据源的数据质量评估框架,给出了单源质量评估、多源整合评估、事件信息辅助评估的做法和要点。分析结果表明。互联网数据源能够完成名录库“及时更新”的任务,可以辅助实现名录库更新的“真实准确”和“不重不漏”,但不足以生成“统一完整”的名录库。同时,本文利用大众点评网、百度糯米网、地理信息系统等异源异构数据整合,给出了一个餐饮业名录库更新的数据质量评估实例。

英文摘要:

Internet data sources should be considered and utilized for enhancing official statistical ability in the era of Big Data. However, the quality of these data sources is questionable. In this paper, we attempt to investigate the quality of data generated from Internet sources. The quality issues of the Internet data sources as well as traditional data sources are compared from the multi-dimensional perspective, a quality evaluation framework mainly aims at accuracy for Internct data source is proposed, and key points of quality evaluation are given out, which include single source quality assessment, multi-sources integration evaluation, and event- assist assessment approaches. The results show that the Internet data sources have the ability for assisting to update business register database timely and accurately, but fail to generate unified one. An application of multi-sources integration is also involving in this paper.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《统计研究》
  • 北大核心期刊(2011版)
  • 主管单位:国家统计局
  • 主办单位:中国统计学会
  • 主编:万东华
  • 地址:北京西城区月坛南街75号
  • 邮编:100826
  • 邮箱:tjyj@gj.stats.cn
  • 电话:010-68783985
  • 国际标准刊号:ISSN:1002-4565
  • 国内统一刊号:ISSN:11-1302/C
  • 邮发代号:82-14
  • 获奖情况:
  • 国内外数据库收录:
  • 中国中国人文社科核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国社科基金资助期刊,中国国家哲学社会科学学术期刊数据库,中国北大核心期刊(2000版)
  • 被引量:32248