位置:成果数据库 > 期刊 > 期刊详情页
大型高能物理计算集群资源管理方法的评测
  • ISSN号:1002-137X
  • 期刊名称:《计算机科学》
  • 时间:0
  • 分类:TP319[自动化与计算机技术—计算机软件与理论;自动化与计算机技术—计算机科学与技术]
  • 作者机构:中国科学院高能物理研究所,北京100049
  • 相关基金:国家自然科学基金项目(11475210)资助
中文摘要:

高能物理数据由物理事例组成,事例之间没有相关性。可以通过大量作业同时处理大量不同的数据文件,从而实现高能物理计算任务的并行化,因此高能物理计算是典型的高吞吐量计算场景。高能所计算集群使用开源的TORQUE/Maui进行资源管理及作业调度,并通过将集群资源划分成不同队列以及限制用户最大运行作业数来保证公平性,然而这也导致了集群整体资源利用率非常低下。SLURM和HTCondor都是近年来流行的开源资源管理系统,前者拥有丰富的作业调度策略,后者非常适合高吞吐量计算,二者都能够替代老旧、缺乏维护的TORQUE/Maui,都是管理计算集群资源的可行方案。在SLURM和HTCondor测试集群上模拟大亚湾实验用户的作业提交行为,对SLURM和HTCondor的资源分配行为和效率进行了测试,并与相同作业在高能物理研究所TORQUE/Maui集群上的实际调度结果进行了对比,分析了SLURM及HTCondor的优势和不足,探讨了使用SLURM或HTCondor管理高能物理研究所计算集群的可行性。

英文摘要:

High energy physics data consist of multiple events,among which there is no relativity.A high energy physics computing mission is parallelized by running multiple jobs processing multiple different data files simultaneously.Therefore,high energy physics computing is a typical high throughput computing scenario.The computer cluster running at the institute of high energy physics(IHEP)uses the open-source TORQUE/Maui for resource management and job scheduling.IHEP keeps a fair-use policy by dividing the computing resources of this cluster into multiple queues,and limiting the maximum number of running jobs of each user.However,this leads up to a low overall resource usage of the cluster.SLURM and HTCondor are both popular open-source resource management system.SLURM has plenty of job scheduling policy,while HTCondor well suits high throughput computing.Both of them are the possible solutions of resource management for computer clusters,replacing old,lack-of-service TORQUE/Maui.In this paper,job submission behavior of users from Daya Bay experiment was simulated at SLURM and HTCondor testing cluster,testing the resource allocation behaviors and efficiencies of SLURM and HTCondor.Their scheduling results were then compared with the actual scheduling result of the same jobs on IHEP TORQUE/Maui cluster.Finally the strengths and weaknesses of SLURM and HTCondor were analyzed,and the practicability of using SLURM or HTCondor to manage the IHEP computer cluster was discussed.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《计算机科学》
  • 北大核心期刊(2011版)
  • 主管单位:重庆西南信息有限公司(原科技部西南信息中心)
  • 主办单位:重庆西南信息有限公司(原科技部西南信息中心)
  • 主编:陈国良
  • 地址:重庆市渝北区洪湖西路18号
  • 邮编:401121
  • 邮箱:jsjkx12@163.com
  • 电话:023-63500828
  • 国际标准刊号:ISSN:1002-137X
  • 国内统一刊号:ISSN:50-1075/TP
  • 邮发代号:78-68
  • 获奖情况:
  • 2001年重庆市优秀期刊,2004年第三届重庆市优秀科技期刊,2005年重庆市优秀期刊编辑部,2010年第六届重庆市期刊综合质量考核"十佳科技期刊",2012年重庆市出版专项资金报刊资助项目(重庆市新...,2013年重庆市出版专项资金重点学术期刊资助项目(...,2014年重庆市出版专项资金期刊资助项目(重庆市文...,2015年"中国国际影响力优秀学术期刊"
  • 国内外数据库收录:
  • 波兰哥白尼索引,美国乌利希期刊指南,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:41227