2015年第24卷第11期 http://www.c-S-a.org.cn 计算机系统应用 基于Hadoop平台的云计算节能研究 吴岳 (国家林业局林产工业规划设计院,北京100010) 摘要:云计算的广泛应用导致数据中心的产生.数据中心的能效的高低不仅涉及到电费,还关系到否符合环境 法规.作者通过修改Hadoop YARN编程模型,使用RAPL的能耗功能来降低应用程序中计算失衡时的能耗. 目的是测试在不会明显地降低性能的条件下,通过RAPL接口控制CPU的能耗是否有效.通过实验表明,在同样 的负载下,Phadoop架构在分块矩阵乘法上相对于原来的Hadoop架构的能耗降低了34%. 关键词:云计算;数据中心;能耗;Hadoop;YARN Power-Saving of Cloud Computing Based on Hadoop WU Yue (Planning and Design Institute,Forest Products Industry State Forestry Administation,Beijing 100010,China) Abstract:An increased adoption of cloud computing has lead to a greater concentration of hardware in massive named datacenters.It is essential for these datacenters to be energy efifcient not only to cut down on electricity cOsts but also to be in compliance with environmental regulations.The author implemented an enhanced version of Hadoop YARN framework that utilizes RAPL's power capping feature to miitgate computational imbalances in an印plication and to reduce CPU power consumption,named Phadoop.The purpose of hte experiment is investgating whether it is beneficial to use RAPL interfaces to conserve the energy consumption ofa CPU in a cloud-based workload without signiifcant loss ofperformance. Experimental resultsindicate a reductionineneryg consumptionofPhadoopupto 34%comparedtoHadoop. Key words:cloud computing;datacenter;power consumption;Hadoop;YARN 云计算技术因为其特有的灵活性、容错性与安全 管压力的增大,能效已经成为数据中心成功运行的关 性,在过去的几年里得到了广泛的关注.当今的云计 键挑战之一. 算服务提供商中,亚马逊、微软、谷歌等大型企业提 近年来,云服务提供商们不断探索降低数据中心 供了从应用软件、开发平台,到基础架构等一系列产 设备能耗的技术.典型的节能技术和机制包括下面几 品.云计算服务不仅降低了用户维护设备的开销,还 种: 可以根据用户需求随时在线调整服务配置,从而节约 (1)动态调节机制.由于处理器能耗在服务器能 了时间. 耗中占了很大一部分,处理器节能很早就受到重视并 在基于云的服务模式中,服务提供商的硬件设备 取得了不少进展.处理器能耗由静态能耗和动态能耗 需要集中放置,称为数据中心.对数据中心有效的管 两部分组成,其中动态能耗与时钟频率和供电电压均 理是为用户提供经济与高效服务的关键.虽然硬件的 成正比关系.因此,可通过改变时钟频率和供电电压 集中放置可以提供快速的更新和恢复,但是也带来了 来动态调节处理器能耗.处理器动态调节技术在个人 对供电与恒温的要求.由于对计算资源需求的增加, 电脑和服务器领域已经有了比较成熟的产品,比如 数据中心的耗电量不断上升,耗电量已经成为数据中 Intel的Enhanced SpeedStep和AMD的Power Now!等. 心运营的一项重要预算.随着来自地方对环境监 部分操作系统也添加了支持模块,如Linux的CPU ①收稿时间:2015-02—28;收到修改稿时间:2015,04—02 Research and Development研究开发235 计算机系统应用 hrrp://www.c-S-a.org.ca 2015年第24卷第11期 freq内核子系统等.另外,内存可以通过调节时钟频 率、供电电压:硬盘也可以通过调节转速实现节能,即 多转速磁盘技术,不过与处理器调压调频技术相比这 些技术使用的很少. Hadoop YARN架构,适合在大量数据聚合时执行 map.reduce操作,它简单的编程模型,使用户能够轻 松实现分布式应用程序. 作者首先对Hadoop YARN架构进行了修改,减少 运行应用程序的I/O开销与能耗,修改后的Hadoop (2)服务器休眠机制.即使采用了动态调节机制, 空转的服务器仍有较高的能耗.如果能将设备在完全 不需要提供服务的特定时段内置于休眠状态,将显著 减少总体能耗.由于休HB/唤醒机制在节能以及其他方 面的广泛应用,Intel、Microsoft等公司共同制定了 ACPI规范以支持这一机制并形成了工业标准.通过定 义服务器的全局状态、设备电源状态和处理器电源状 态,服务器可以动态地管理电源. f3)负载调度优化.负载调度优化主要是通过用 虚拟化技术或服务调度迁移技术(将低负载服务器上 的服务整合迁移到部分服务器上,然后让无负载的进 入休眠状态或者关机),提高正常运转服务器的使用率, 达到数据中心整体节能的效果.虚拟化技术目前已有 YARN框架称作Phadoop架构.Phadoop架构使用一个 进程池来处理map.reduce任务,它支持缓存初始任务 运行时从文件中读取的数据,并在后续任务中重复使 用.这个修改优势体现在迭代的map.reduce任务中, 新的map.reduce任务从底层文件系统冗余地读取相同 的输入数据.Phadoop架构还包括一个实时系统用来调 用RAPL服务,用来动态地节点运行map—reduce 任务时的能耗.最后通过实验表明,Phadoop架构在执 行稀疏矩阵乘法上相对于原来的Hadoop架构的能耗 降低了34%. 1 Hadoop平台 Hadoop是一个由Apache基金会所开发的分布式 系统基础平台.用户可以在不了解分布式底层细节的 很大的发展,并且有很多成熟的企业级产品,如开源 的Xen、VMware公司的VMware系列、Microsoft公 司Hyper-v等.借助虚拟机实时迁移技术和VMware DRS等虚拟机调度产品,可以按照负载的变化进行虚 拟机动态调度,进~步提高了服务器使用率,降低了 数据中心整体能耗. 情况下,开发分布式应用程序,充分发挥集群的优势 进行高速运算和存储.Hadoop平台最核心的组成是 Hadoop分布式文件系统(HDFS) ̄[I Map/Reduce编程模 型.HDFS为海量的数据提供了存储,则Map—Reduce 编程模型为处理海量数据提供了程序框架. Hadoop平台的优势主要体现在以下几个方面: f4)供电、制冷系统优化.常见的如功耗封顼 (Power Capping)技术,通过对服务器功耗进行动态设 置或者封项,来帮助用户动态分配数据中心里的电力 可靠性:Hadoop是按位存储和处理数据的,可靠性高; 扩展性:Hadoop是在可用的服务器集群间分配数据并 完成计算任务的,这些集群可以方便地扩展到数以千 计的节点中. Hadoop在很多大型网站上都已经得到了应用,可 和制冷资源.用户可以根据服务器使用中的最大实际 功耗来限定其功率上界,减少不必要的过度供给,而 节省下来的电力可重分派给新的系统.另外还有 UPS(不间断电源)改进(LL ̄zn使用飞轮UPS取代铅蓄电 池UPS)、海水冷却、数据中心废热供暖等方法.采用 配有可调节电源接口的硬件设备或者可与电源管理工 具协同工作的硬件设备都可以降低能耗.Intel公司的 RAPL(Running Average Power Limit)技术就是这样的 成果之一.RAPL是通过硬件实现的机制,最早用于 Sandy.bridge处理器家族,可以测量和CPU和内 存的运行功率.通常,在一个数据中心的能耗峰值中, CPU和内存的能耗分别约占了33%和30%,降低CPU 和内存的能耗能够提高数据中心的整体能效. 一以说是目前最为广泛应用的开源云计算软件平台. 2 MaD—Reduce与HadoopYam Map—Reduce是一种编程模型,用于大规模数据集 的并行运算.它极大地方便了编程人员在不会分布式 并行编程的情况下,将自己的程序运行在分布式系统 上. 如图1所示,首先用户程序(ClientNode)提交了 个job,job的信息会发送到Job Tracker中.Job Tracker是Map Reduce框架的中心,它与集群中的机 本文分析了在执行基于云的负载运算时,使用 RAPL接口减少CPU能耗的优势.实验中使用的 236研究开发Research and Development 器定时通信(heartbea0,需要管理所有iob的失败、 2015年第24卷第11期 http:Hwww.c-S—a:org.cn 计算机系统应用 Phadoop架构的能耗都低于Hadoop的架构,大概降低 明显地降低性能,通过RAPL接口控制CPU的能耗是 了17%到25%. 否有效.修改后的Hadoop YARN编程模型,使用 图6(c)展示了Phadoop架构和Hadoop架构下平均 RAPL的能耗功能来降低应用程序中计算失衡时 功耗的降低,范围在ll%到30%.当矩阵B的所有数 的能耗.通过实验表明,在同样的负载下,Phadoop架 据块的密度呈二次曲线变化时,每次并发执行 构在稀疏矩阵乘法上相对于原来的Hadoop架构的能 reduce任务时矩阵B的数据块都是不同的密度.reduce 耗降低了34%. 任务中出现了明显的计算不平衡引发了实时RAPL功 能.实时RAPL系统应用节能策略来降低平均功耗. 参考文献 图6(d)中,Y轴表示全部工作执行时间降低的百分 1金伟健,王春枝.适于进化算法的迭代式MapReduee框架. 比,x轴表示矩阵A的行数.TPhadoop表示Phadoop架 计算机应用,2013,12:3591—3595. 构中全部工作执行时间,THadoop表示Hadoop架构中 2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统 全部工作执行时间,那么下降百分比为 性能优化与功能增强综述.计算机研究与发展,2013,增刊2: (THadoop.TPhadoop)/THadoop*100%.正值表示减少, 1-15. 负值表示增加.Phadoop架构中总执行时间的减少因为 3许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监 缓存了输入值.每次并发的reduce任务在迭始时, 控机制.计算机科学,2013,01:112—117. 存储矩阵B的数据块在内存中,并在后续迭代中使用. 4袁玉,崔超远,乌云,陈祝红.单机下Hadoop小文件处理性能 对于某些输入下百分比低于,是因为RAPL服务的运 分析.计算机工程与应用,2013,03:57 ̄50. 行开销超过了缓存输入值节省的开销. 5王峰,雷葆华.Hadoop分布式文件系统的模型分析.电信科 学,2010,l2:95—99. 5 结语 6刘正伟,文中领,张海涛.云计算和云数据管理技术.计算机 在过去的几年中,越来越多的企业采用了云计算. 研究与发展,2012,增刊1:26_31. 这个趋势将会持续下去,必然导致大量硬件集中放置 7江务学,张璨,王志明.MapReduce并行编程架构模型研究. 运行,数据中心将成为电力消耗的“大户”.数据中心 微电子学与计算机,2011,6:168—170. 的能效的高低不仅涉及到电费和硬件维护成本,还关 8钱育蓉,于炯,王卫源,孙华,廖彬,杨兴耀.云计算环境下软硬 系到否符合环境法规[8】. 件节能和负载均衡策略.计算机应用,2013,12:3326-3330. 本实验的目的是测试在云计算的负载下,如果不 Research and Development研究开发24 1