位置:成果数据库 > 期刊 > 期刊详情页
基于谓词的大数据抽样技术研究
  • ISSN号:1674-8425
  • 期刊名称:《重庆理工大学学报:自然科学版》
  • 时间:0
  • 分类:TP392[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]电子科技大学中山学院计算机学院,广东中山528400, [2]广州华立科技职业学院传媒部,广州511325, [3]重庆理工大学计算机科学与工程学院,重庆400054
  • 相关基金:国家自然科学基金青年科学基金资助项目(61300095); 留学人员科技活动择优资助项目“商业智能应用软件研究与开发”(2009CR02)
中文摘要:

为解决大数据抽样问题,采用MapReduce产生内容满足给定谓词的固定规模样本,并扩展了默认的Hadoop[1]设置,使其支持作业按需动态管理其资源消耗以解决MapReduce进程中的资源浪费问题。实验结果证明:本文所提策略的执行性能优于默认的Hadoop,从而证明MapReduce解决大数据抽样问题的可行性和有效性。

英文摘要:

To solve big data sampling problem,this paper uses MapReduce to sample big data and produce a sample whose content satisfy a given predicate. Since the default Hadoop execution depends on the size of the input and is wasteful of cluster resources. The paper has extended the default Hadoop to support job-demand dynamic management of its resource consumption on cluster. Experiments results show that the implementation of the proposed policy performance is better than the default Hadoop policy. Therefore,it was proved that sampling big by using MapReduce is feasible and effective.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《重庆理工大学学报:自然科学版》
  • 中国科技核心期刊
  • 主管单位:重庆市教育委员会
  • 主办单位:重庆理工大学
  • 主编:李志雄
  • 地址:重庆市巴南区红光大道69号
  • 邮编:400054
  • 邮箱:xb@cqut.edu.cn
  • 电话:023-68667255
  • 国际标准刊号:ISSN:1674-8425
  • 国内统一刊号:ISSN:50-1205/T
  • 邮发代号:
  • 获奖情况:
  • 连续3次获:重庆市一级期刊“称号,2011年入选”RCCSE中国核心学术期刊“
  • 国内外数据库收录:
  • 中国中国科技核心期刊
  • 被引量:3795