节能与虚拟
数据中心大会2008.暨第六届服务器世界大会
时间:2008年6月12日上午
地点:国宾酒店二层大宴会厅
主持人:
大家早上好。欢迎各位光临数据中心大会2008暨第六届服务器世界大会。
今天距汶川大地震已经有整整一个月的时间了。今年对于整个中国来说都是很不容易的一年。再过不到两个月,我们将迎来2008奥运盛会,我总是在想起前不久温总理在汶川看望灾民的时候写下的四个字叫做“多难兴邦”,这也是在座每一个人在面对困难时候的座右铭。对于IT世界来说也是这样的,我们每天在面临与日俱增的IT需求,同时,又要感受来自能源,还有成本的巨大压力,这些事情摆在我们面前是很难很难的。但是从《网络世界》的角度来说,会与业界的朋友,一同与大家共同探索解决这些难题的新的出路。
接下来请各位掌声有请《网络世界》总编高辉先生为本次大会致开幕词。
高辉:
尊敬的各位来宾,大家上午好。首先欢迎大家来参加由《网络世界》主办的第三届数据中心大会,暨第六届服务器世界大会,让我们一起交流、探讨新一代数据中心建设的技术和应用趋势。在此,我谨代表《网络世界》报社对大家的光临和长期以来对《网络世界》的关注和支持,表示衷心的感谢。
《网络世界》关注数据中心这个话题已有近五个年头,并在国内率先提出了建设新一代数据中心的理念。随着世界信息飞速发展,如何管理数据中心,已经成为许多行业、企业必须面对的难题。由于网络、计算和存储技术的不断进步,数据中心正在发生巨大的变化,提高性能、可靠性,并降低成本的目标,正促使企业对数据中心进行整合、虚拟化和标准化。一系列新的技术和产品,如网格计算、统一通信、虚拟化、网络优化、Web服务、开源结算、节能降耗等都可以帮助我们实现这一目标。
在去年的这个时候,我们在这里举办了第二届新一代数据中心大会,当时讨论的主题是“创新”,今年我们要谈的主题是“节能与虚拟化”。节能从去年以来一直是各个行业讨论的一个热点,因为这个话题不仅仅涉及到企业的成本,更直接关系到整个人类的生存环境。
在上周,6月5号,大家都知道这是一个节日,叫做世界环境日,联合国环境规划署确定了今年世界环境日的主题为“转变传统观念,推行低碳经济”,这其中提到的减少二氧化碳的排放量就和IT界的节能直接相关。就数据中心的节能来说,不仅仅是芯片、服务器、存储设备的节能,还包括了电源、空调、网络设备、布线、机房整体设计和性能优化等各个方面。另外,虚拟化技术的部署也是节能的一大关键,它给数据中心的管理,甚至整个建设的思路带来了很大的变化,在这种技术应用的前提下,数据中心怎样部署和实施,都需要进行重新的思考。
这次大会我们也给每个人准备了一张参选征集表,随时欢迎在座的各位和我们的读者一起分享新一代数据中心的建设经验。同时,在《网络世界》的网界网www.cnw.com.cn上,专门开设了数据中心频道,希望通过日常的报道、数据中心大会、新一代数据中心大会和网站频道等多种方式,为大家提供一个沟通、交流、互动的平台,让我们一起推动国内新一代数据中心技术和应用的发展。
最后,我预祝本次会议圆满成功,也希望在座的各位都能获得实实在在的收益。
谢谢大家。
主持人:
本次大会也非常荣幸请到了中国电子学会节能工作推进委员会副秘书长刘明亮先生,掌声有请刘先生给我们做大会致辞。
刘明亮:
尊敬的各位来宾,各位女士,先生们,大家早上好。
今天由《网络世界》报社举办2008数据中心大会,首先我代表中国电子学会,对本次大会的胜利召开表示热烈地祝贺。
本届数据中心大会的主题是“节能与虚拟化”。在这个大会上讨论这样的主题,既符合国家的产业发展政策,同时也是具有现实的指导意义。在当今的信息时代,数据信息是企业最宝贵的财富之一,大家都有体会,数据信息的丢失会对于企业,特别是现在以知识经济为典型代表的企业造成无法挽回的损失。美国“9.11”事件之后,确实有很多企业因为丢失数据的主要原因,而导致企业破产,以这个主题讨论数据中心的问题,也是具有现实意义的。特别是当前对于我们国家来说,四川地区和相关的地区正在承受着地震灾害,从全国来说,举国上下都在为抗震救灾、恢复家园、恢复生产做努力,但是对于IT人来说,面对这样的情况,我们也应该想一想数据中心、数据保护等等一系列,是不是能够应对这个灾难,这也是具有现实的讨论意义的。
提到数据保护,很多人可能会联想到容灾。容灾的前提首先也是数据中心的整合,没有完整的整合应用的数据中心,容灾中心建起来或者怎么建,也是一个跟实际应用需求相结合的问题。如果为每一个应用建立相应的容灾备份中心,这种情况是不是可行?即使可行,它的投资规模是不是很大等等一系列的问题都值得讨论。在新一代的数据中心当中都会面临这些方面的技术讨论。因此,一个整合的数据中心是容灾中心的基础条件或者前提条件。我们在这届大会上讨论数据中心的有关策略,有关技术解决方案,对于数据保护,对于当前的现实灾害等等都具有非常现实的指导意义。
近年来,节能减排工作也得到了国家越来越重视,把节能减排工作提到相当的高度。温家宝总理在政府工作报告当中,也把节能减排提在很重要的位置。同时,也是作为衡量经济发展又好又快的一个重要衡量指标之一,甚至提出约束性的指标。经济工作报告分别对节能减排提出明确的约束性指标。建设资源节约型、环境友好型社会是咱们国家的发展战略,全国各地区、各部门也在积极推进节能减排工作。电子信息行业也不例外,近几年特别关注节能减排工作。也许有人会认为,和大气污染、环境等等方面相比,和重工业行业相比,电子信息行业的节能减排显得并不是特别重要,IT产品的绿色化好像是小题大作,但是据权威部门统计,我们国家每年800亿的政府能源消耗当中,仅IT产品的能耗就已经达到50%。据IDC统计,全球每一美元的计算机硬件成本开销,约有50美分花在电力使用上,这种趋势在今后十年当中可能还会继续增长。因此,我们在这里讨论IT节能的问题,服务器的节能问题,正是符合国家绿色产业的政策,也是积极落实国家在节能减排方面的积极行动。
去年9月,中国电子学会联合国内外有关的13家机构,成立了中国电子学会节能工作推进委员会,得到了政府主管部门的支持,也得到了广大企事业单位机构的积极响应。节能工作推进委员会的成立,主要是呼吁社会有关方面的力量积极研究电子信息产业的节能降耗有关技术、解决方案的问题,来呼吁社会各界能够广泛地采纳、采用节能解决方案,这个倡议正好也是跟这次大会的主题“节能与虚拟化”相吻合、相一致。所以,我相信本届大会讨论有关方面的问题,能够进一步推动电子信息行业的节能,能够推动行业的绿色发展工作,通过大会的讨论,在座的各位都会有很大的收获、帮助。
在此预祝本次大会能够取得圆满成功。谢谢大家。
主持人:
谢谢刘秘书长。今天的大会其中有一个主题是“虚拟化”,今天很多演讲者会重点讲这个话题。
首先有请英特尔企业解决方案中国大区技术部经理梁岩先生,他演讲的题目是“数据中心策略与虚拟化”。大家掌声有请。
主题:数据中心策略与虚拟化
梁岩:英特尔企业解决方案中国大区技术部经理
大家早上好,非常高兴能够代表英特尔公司参加数据中心大会暨第六届服务器世界大会。今天谈的主题是“节能与虚拟化”,这两个方面都是英特尔在未来多年中重点投入的两个技术方向。节能本身对一个企业来说,代表着长期运营成本的节省。虚拟化本身从另外一个角度,为企业在初期的购买成本提供了另外一个节省成本的途径。
今天我的话题主要是针对英特尔如何在数据中心的设计、服务器架构以及在虚拟化技术方面,为企业客户带来这方面的利益。从第三方的数据来看,近几年IT的投入,尤其在服务器、相关的PC机方面的投入大幅度增长。我们每天手头用的谷歌,大家想象不到它的后台到底有多少服务器支撑全球的搜索系统,超过一百万台服务器,这是一个企业的,大家可以想象到别的企业,比如我们经常用的QQ、百度、搜狐、新浪这些企业,都有成千上万的服务器支撑他们每天的运维,因为客户量非常大。举例子,QQ的注册用户超过1.7亿,这个量对后台的支撑系统都有很大的要求。从企业来看,服务器的大量增加,对企业在管理方面的难度加大很多,同时在运营成本方面也带来很大的成本提升。运营成本里包含很多方面,能耗方面,为了降低能耗,需要更大的空调,更多的数据中心的面积,还包括相关的UPS。这些方面都需要提升大幅度数据中心的能耗提升。
第三方数据统计,每花一美元购买新的设备,在未来三年里,估计有8美元用于运营成本和机器的维护,包括很多方面,其中一部分是不可忽视的,就是能耗方面的花费。
提升数据中心能效有两个方面,一个是提升服务器的能力,用更少的服务器完成更多的工作,这是我们每天在努力做的事情,包括英特尔公司,包括客户每天都在做的事情。第二,在数据中心方面,我们如何使现在的数据中心更有效率,散热等等方面能够提供更高的效率,这两个方面的充分结合,为一个企业在这方面提供更好的节能降耗的作用。高性能服务器包括很多方面,如何把两个因素充分结合到一起。
有四个因素制约数据中心的发展:
第一,供电。很多地方的数据中心供电,每个机柜是10安培,有的地方好一点,15安培。按照今天很多机器的功耗来看,可能能放10台左右。如果放两U高的服务区,只能放一半,这是基本的情况。
第二,空调也是非常重要的一点,散出去的热,基本服务器内部不把电留下来,基本都是通过热的方式散出去,要把热抽出去,否则数据中心就会变成桑拿房了。用多大的空调能把热带出去?要看转换效率。空调在数据中心是非常重要的技术因素。
第三,可用空间。在一千平米的房子里到底能腾出多大地方为服务器摆放和使用。一千平米全给服务器最好,其实在大多数情况下是不可能的,因为需要放空调的地方,需要放UPS的地方,UPS电池很占地方,需要管理人员坐的地方,需要测试的房间,需要相关的监控房间等等方面,基本上我们认为大部分情况下,有一千平米的数据中心,可能只有一半的空间用在服务器的摆放。
第四,地板的承重也很重要。做高密度的服务器环境,单位面积的承重能力一定需要加强。这是一个软因素。
数据中心承载容量的标准有很多方面,我们基本上用几个因素考虑。
第一,每平方英尺所能够提供的瓦数,这样基本能算出一个数据中心到底能提供多大功耗的容量,能够摆放服务器。
第二,每个机架到底能承受多少千瓦服务器的摆放。
第三,每个机架占地面积。现在一般用的机架都是标准的,600×800,很多数据中心是这样设计的。很多厂家提供所谓高能效的机架,内部有一种风的循环系统,可以更好的提升外部的数据中心所不能达到的散热效果的时候,机架本身又宽又大,可能变成1000×1200,或者800×1000的模式,就不可能摆放像以往这么多的机架,需要设计数据中心之初的时候要进行充分地考虑。
功耗与散热的趋势图,能不能一味地提升供电和空调系统?我们在很多情况下认为不是有效的,如果提升服务器的密度,提升数据中心的密度,势必需要加大空调量,势必加大相关的空调摆放。到一定程度以后,密度提高的越多的时候,就有可能变成一种方式,空调占的空间增长的速度要快于提高密度提供的额外服务器的数量,这个时候效率是往下降的。很多地方需要充分考虑,在什么样的环境下能够为企业提供非常好的能效比,数据中心的设计也需要这样。
单纯靠提升服务器的性能能达到什么目标,这是2002年和2007年的比较。这是用石油石化行业的高性能运算进行比较,如果都达到同样的性能,都达到3.7,2002年需要25个机架完成这个工作,到今年一个机架就可以做下来。当年需要512个服务器,现在需要53个刀片服务器就可以完成。当年是1000平方英尺,今天40平方英尺。功率当时是128千瓦,现在是21千瓦。我们单纯靠提升服务器的性能,五年里边有一个六倍性能的提升。这是一方面,能够为企业在设计数据中心的时候,缓解一方面数据中心设计的压力。
是不是下一个五年我们能猜测到一个情况,从英特尔情况来看,还是完全在摩尔定律的方向上做,性能提升还是按照原来的路在走,相信在下一个五年服务器的性能还会大幅度提升,为我们数据中心的提升带来大的便利。
加速服务器的更新周期,也是一个非常重要的值。我们企业里边四年或者五年作为一个更新周期,如果我们回头来看,这个是不是合适,可能有各种因素,但如果单从耗电来看,英特尔上一款和上上款相比,降低功耗已经达到40%,就是65瓦对110瓦,这就非常大了。下一代以及后面的功耗都会大幅度降低。从长期运营成本来看,如果每一个服务器节省40瓦,如果有一千台服务器,每天的量或者每年的量,或者运转几年的量,这个钱用来再购买一千台服务器也是绰绰有余。所以加速服务器的性能是非常有用的,运营成本也是在每天上升,这个需要考虑。未来运营成本会占到所有TCO的应用成本的比例会越来越高。
最新的英特尔45纳米的产品,比上一代产品又有很大方面的提升,最近用了45纳米技术,先不谈虚拟化,也不谈别的相关技术,单从工艺来看,密度提升两倍,有可能相当于三个原子的宽度,就可以刻线了,可以提升20%的晶体管的切换速度,很多设计晶体管里刻的线太近了,容易出现漏电,会占整个消耗功率相当大的部分,漏电会降低五倍。另外,栅极功率也降低将近十倍,目前的产品相比上一代产品,整个功耗有大幅度的降低,能效比大幅度提升。
同时,要考虑单纯提升服务器性能,但这只是一个方面,同时还要考虑对数据中心要进行高密度的改造,有两个出发点:第一,单位面积提升服务器的数量,可以用更小的空间为企业服务,如果有更大的空间,你的空调很大程度上是在冷却空间,实际上花了很多钱,空气吹的是房间,房间实际上不需要冷却,需要冷却的是服务器,所以数据库花了大量的钱是在冷却这个房间。能在非常小的房间来提高服务器的密度,对企业来说,这个价值非常大。在国内大部分情况下,数据中心的密度都是每平方500瓦左右的耗电,每平方米可以放两台左右服务器的值。英特尔的实验室现在接近于生产环境也是超过5000瓦,实验型的机房达到了8000万平米的设计。我们在做设计的时候,不仅仅是拍脑袋想出来的,这个风是怎么走的,从机柜中间是怎么穿过去的,我们用流体模型做了一个数据中心的理念。
这张图是我们在美国的GFS1的数据中心,可以在一个40R的柜子里放满这些环境,是一个高密度的机房。上面是放机柜的地方,240个机柜,地下室是空的,不摆放东西。风不是用吹的,是用负压的方式,让循环风吹下来以后,吹到冷区里面,通过柜子进到热区里面,再通过天花板上去,天花板上面没有布线,空间完全开放出来,上面的风又完全可以进到循环风系统里,再下来出来。每个服务器的上面和天花板之间是完全隔断的,不可能出现风到服务器中间以后,从上边和热风进行混合。经过改造以后,这个中心计算密度非常高,可以达到每平米5500瓦的能力。
我们还做了很多方面的革新,换风系统采用了新的绿色技术,和外面的空气进行交换,我们很少采用内部交换技术,通过和外部的交换,把冷风带到机房里来,减少电力的投入。
虚拟化方面,能够为企业的数据中心能效带来更大的价值。虚拟化我们谈了很多年,每年也有不同的话题,但是我给企业一个最直接的例子,服务器整合的根本目的在于降低整体的应用成本,就是花费。有很多方式,第一点,可以把更多的服务器合并到一个环境里去,这叫服务器集成或整合。第二,可以在整个开发环境里部署虚拟化,开发环境标准化以后,不同的项目结束以后可以很方便的移出去,把新的项目移进来,可以减少购买新服务器的数量。第三,灾难恢复。第四,动态平衡等等方面。这些方面是不同的使用方式。从英特尔角度来看,虚拟化本身可以对企业在数据中心的管理以及能耗方面带来非常大的价值。
举几个例子。第一,如果我有一个环境,里边有几个虚拟环境,基本上是33%、33%和33%的环境,这是一个虚拟化环境,运用不同的应用。如果在前两个环境这个机器没有什么应用,在别的环境里,如果有一个机器占的是非常小的CPU的利用率,就可以把那个环境挪到这上面来,这样有什么好处呢?这个机器被充分利用的,另外一个机器就空出来了。这个机器就处于一种空闲状态,会进入一种比较大的休眠状态,这样为企业带来的功耗降低是非常大的。大家可能考虑一台机器对一台机器不太明显,如果考虑几百台、上千台,像谷歌或者腾讯公司,带来的利益效益是非常大的。
另外一种,我们以往在管理一个服务器电源的时候,在CPU、主板上面对操作系统进行管理,英特尔的技术方向和很多虚拟化公司一起来做,我们在虚拟化之上,如果一个机器运行了多个操作系统以上,多个CPU的管理可以用各个分区来做,你用的资源可以来做能耗管理,不用的那块资源,别人来用,别人也可以进行管理,相当于把一台服务器拆分开来,我不管在应用上还是管理功能上,都可以拆分成非常细微的进行管理,这是英特尔目前在做的工作。
从虚拟化方面,英特尔还希望能够为客户带来这方面的投资保护,从今天或者以往发布的一些架构到未来多少年以后,整个产品如果做虚拟化,做迁移的时候,可以非常方便的二进制的把虚拟分区直接漂移到新的服务器上面去。比如去年买的5300系列的服务器,用VMV一个机器运行了8个虚拟化分区,可能明年购买了新的平台,性能非常高,你希望这些未来都整合到一个新的虚拟化平台上去,一个机器开20个平台,自己创建虚拟分区,把这些应用拷贝出来,再复建这些分区。可以指定它进行漂移,是二进制漂移,不用做任何工作,就直接从老的服务器漂移到新的服务器上去了,这台服务器就可以空出来,可以降低周转,降低运营上的功耗。这些技术都为客户在虚拟化上带来很大的灵活性。
英特尔和虚拟化公司进行合作的时候,除了在平台上支持虚拟化以外,以后在技术里能够使虚拟化发挥达到极致,很多人如果有这个概念,用虚拟化的概念就把底下的硬件虚拟了。如果加了一层虚拟层,带来的性能可以比没有裸机的时候性能这么高,这在一定程度上是事实。英特尔做的事情就是尽量减少这中间对性能的损耗。目前我们做了几方面的工作,第一点,很多中断处理,如果在虚拟分区里做中断处理的时候,操作系统的很多调用是通过中断来做的,加大虚拟层以后需要做一次翻译,英特尔做了一个技术,VT FlexPriority,直接在虚拟层之上做一个中断的映射,所有对中断的调用根本不用做硬件,直接用这个映射就可以了,性能会和裸机的性能一样。比如2000和2003用了这个技术以后,性能会比原来没有装虚拟化的环境提高35%左右。
大家会想到由于中翻译工作,很多IO操作,就是输入、输出端口的操作,包括文件系统、网络方面可能也会带来性能的降低,主要是中间翻译的工作负担比较大。英特尔做了两方面工作,第一,对IO虚拟化的支持,希望我们做重新映射,把很多IO终端直接映射到CPU里边,芯片储上面去,这样就从虚拟化分区调用的时候,可以进行直接的调用。去年我们所有的服务器已经完全开始部署这方面的技术了,这个技术叫做VTD。
还有一点,网络方面,大量的吞吐,如果开了十个区,我只有一个网卡,这个网卡的技术上来以后,会判断这个技术在哪个分区,用CPU来进行判断,这是英特尔不需要看到的,也是希望改革的方面。英特尔新出了几种网卡,所有的判断都放到网卡里做,网卡预先为你的服务器设置好不同的队列,将来开分区的时候,可以通过对网卡的调用,网卡可以告诉它将来的数据会在哪个序列里领取,这个技术叫做VMDQ技术。
虚拟化方面的成功案例,这是一家国外的ERP用户,当时有67000个ERP用户,当时是五个机架来实现的,这是比较成熟的企业,两个机架可以完成19台服务器,只占用80平方米,84千瓦的值。如果单纯只是靠服务器的性能提升,到底在未来几年能达到什么能效比。
这张图是虚拟化的案例,客户是韩国电信,KT,采用四核处理器,可以大幅度提升服务器的整合比,计划80%的服务器以后,减少了33%的面积使用,减少了50%的能效。前段时间帮客户做了一个企业能效比的调查,很多地方能耗电费价格上升很多,尤其是数据中心的能耗,企业会有意提升电费,尤其在很多南方城市这点相当明显,运营成本已经到35%到45%。还有一个企业在北京,他们有一个测试机房在一个写字楼里边,那个楼每天会找他们谈说只要你们上班,一层就占到了我们将近30%整个楼的费用,供电就那么多了,不可能再增加了,对他们来说都是非常大的压力。从这个角度来说,无论从企业的效益来看,还是从长期的运营管理简化程度或者可管理性方面来看,用虚拟化的方式,提升服务器的性能,增加服务器的密度方式,或者改进数据中心,都已经势在必行了。
总结一下,数据中心的集成与虚拟化,为企业打造一个反应敏捷、成本合理的模型,有两点:第一,要非常好的利用服务器的性能的提升,利用虚拟化技术来加大服务器整合的能力。第二,对现有的数据中心以及未来的数据中心,要引进一些先进的理念,把一些先进的对风的控制、流体力学的设计等等,把它引进来,提升数据中心,提高单位的密度,为单位提供一个更加高效的数据中心。
今天英特尔关于节能与虚拟化技术的探讨就到这里,谢谢大家。
主持人:
谢谢梁先生。接下来有请下一位演讲者,他来自APC公司。有请APC大中华区市场推广总监谢卫刚先生。
主题:创新架构、高效企业下一带数据中心的高效架构
谢卫刚:APC大中华区市场推广总监
谢谢大家。
今天来得很匆忙,路上有不少惊心动魄的事情,同时来到这里我也同样惊心动魄。第一,今天到场的人这么多,另外我也很感慨,今天的主题是“节能与虚拟化”,与我今天要讲的内容是那么切合。感谢英特尔那位同事给我做了很好的铺垫,我直接进入主题。
我今天要跟大家分享的主题是四个部分:数据中心面临的挑战;IT技术对数据中心带来的影响;IT技术的更新和变化;下一代数据更新将解决什么问题,或者我们如何解决这四个部分。
第一,所有的数据中心正在面临的挑战有哪些,我们看到太多这样的事例。原来的线缆很少,数据中心机架没有多少线,最后数据中心的网线真的变成了网。用一个高架地板,配风的同时也同样可以给我们提供布线的支持,最后我们发现结果并不是这样的,如果一旦发生了液体泄漏,可能所用人员都要慌忙去抢救IT设备。因为高密度刀片式服务器的出现,也让原来的送风的高架地板最后变成了一个网线或者数据线堆积的地方,最后谁是下一个倒霉蛋,把自己手指头捅进电里边,迟早要发生。
所有事情都有正面、有负面的,刀片式虚拟化服务器也有正面、负面的。我们可以用它来热一热我们的便当或者烤鸭等,这是数据中心给我们带来客观的事实。IT技术有很多很多变化,包括英特尔同事讲的虚拟化,还有IT技术的虚拟化、摩尔定律,还有原有的整个IT应用的功率在整个数据中心里是动态变化的,包括企业面临的竞争环境,需要不断更新企业的应用,提升企业竞争力不断变化的需要,所以我们才需要去改变构建设计运营数据中心的方式。
2006年底,CIO调研显示的结果,当时有1000多个样本,70%的受访者认为供电和制冷是能源上的问题,占整体IT预算的8%增加到了48%。我们今天的主题讲得非常好,未来是虚拟化的时代,IT会有85%的预算投入到虚拟化上。我们算一个简单的账,8%到48%,有多少可以用来买服务器,可以用来买机架。占48%的电能是怎么在数据中心消耗的,在IT设备里边目前只占到总体电力输入的30%,我们用了100瓦的电,用在IT设备或者服务器上的只有30瓦。假如我们输入100千瓦的功率,最终可以进到UPS、供电制冷基础设施层面的结果只有50%,就是50瓦到了服务器这个层面。但是服务器这个层面也有自己的电源和制冷,也有一定电能的消耗,最后真正到芯片这个级别的只有30%,100千瓦的电,只有30千瓦用到了芯片这个级别。但是一个芯片有操作系统,也有虚拟化平台,所以最终来说真正应用的只有0.01%,最终是99.9997%的电能的转化成热能,这个热它不是简单的转化,需要我们用制冷把它冷却掉,才能够维护正常数据中心的应用。
我们必须关注的问题是数据中心的效率问题,数据中心的效率,按照输出功率的比值来看,这个数字太小了,我们任何的改变无法关系到最终具体环节的变化。再换一个层面来看,数据中心基础设施效率,IT设备的输入耗费的功率占整体数据中心的输入功率的百分比,这样的数值就会比较现实。现在典型的数据中心大概值是20%到30%的值,这是相当低的。典型的数据中心,基础设施会占70%的电能消耗,IP设备要占30%。如果对整个基础设施包括供电制冷做能效上的改进,对能效提高10%,相应的带来的节省,可能整体效率能提高到35%。如果对基础设施进行一个合理的规划,整个基础设施的整体效率可以提高到70%,所以我们的能耗可能降到原来的一半,大家都知道这一半意味着什么。另外一半,如果我们目前不断运用高密度设备,运用虚拟化,最后导致的是我们期望的整个高架地板的送风口完全被挡住,这时候面临的问题是原来高架地板的结构,完全无法适合高密度的需要。我们原来的时候考虑的是,如果有一个160千瓦的数据中心,应该配的空调容量是200千瓦,有一个N+1的冗余,任何一个空调坏了,所有数据中心都变成了红的部分,温度已经远远超过了空调或者精密制冷能够控制的范围,我们原来想要的N+1的冗余实现了吗?没有。这就是传统的架构存在的根本问题。
在原来高密度的运用的时候,当大于5000瓦的时候,无法去预测数据中心的热点,也无法根除这个热点,用热谱仪可以测出来。在数据中心里,我们用的是房间级的制冷,把空气吹到整个房间里,但是这个房间里有冷的进风口,也有热的出风口,难免有空气的混合,所以气流非常复杂。同时,高架地板的底部是用来传输气流的,但因为有线缆,线缆孔都会导致制冷气流的泄漏,所以传统结构无法解决我们面临的问题。
基于前边的部分,新出来的一些技术会给我们带来哪些变化呢?首先可以让效率更高,原来一个CPU只有10%到20%的占用率,现在可以通过虚拟化达到80%以上。另外,服务器的量少了,同时空间更大了,可以放更多的服务器了,数据也更安全了,因为虚拟化整个通过进项做的备份。由于硬件设施的减少,人力成本就降低了,这是一个非常好的事情。
根据目前白皮书研究表示,虚拟化可以带来至少10%到40%的能耗节省。如果只做虚拟化,可以带来接近30%的节省,如果把虚拟化加上供电和配电整个结构做一个根本性的变化,节省可以达到65%。
因为虚拟化带来服务器的集中,服务器的集中带来的是高密度设备、刀片式新技术的广泛应用,刀片式的应用也带来能耗的节省。下一代数据中心将要解决的问题,综合一下,虚拟化刀片式服务器应用,总结为三个部分,第一,需要合理规划基础设施,就是供电和制冷,同时需要有精确的制冷分配在数据中心里,哪个地方需要更多的制冷,就给哪个地方提供更多的制冷。哪个地方不需要制冷,我们的设备可以在低功区进行运营。同时,也需要对机房里整个变化和容量进行实时的管理和应用,可以保证一旦发生变化情况的时候,我们的反应都是主动的。
供电和制冷部分,DCIE就是数据中心基础设施的概念,当数据中心里边的IT负载量越小的情况下,数据中心的效率会越来越低。因为输入的功率是一样的,所以效率是越来越低的。同时,因为传统的规划方法技术上的瓶颈,数据中心一定要考虑未来五年IT数据中心的负载是多大,未来十年是多大,我们用的真的是大马拉小车,数据中心可能100千瓦输出的功率,真正用在数据中心上可能只有15%到20%。目前很多数据中心并不是按照设备额定的峰值进行设计的,IT设备里都有一个额定的功率值,但我们是按照需要多少进行设定的。当服务器的能源管理出现以后,动态节能技术出现以后,这个问题变得更为突出,就需要整个供电和制冷设施随着虚拟化和数据中心机房的整合同时进行扩展。
另外也碰到一个问题,供电和制冷设备整体的基础设施,第一步是虚拟化的整合,原来需要三台服务器,现在把它虚拟化到一台服务器上就可以了,因为现在高密度刀片式服务器已经很普遍了,所以会有更多的高密度机架出现。高密度机架如果在传统的房间,会有很多很多无法逾越的热点。传统数据中心通常采用了房间级制冷技术,在高密度和虚拟化出现以后,我们需要的是机架级的制冷,如果密度超过3000瓦以上,就会超过一个瓶颈,紧靠热能来提供制冷。
热点是怎么产生的,如果是传统的设计,不用虚拟化,也不是高密度的情况下,负荷是一个平稳值,不管是黑夜还是白天,整个功率是不会发生变化的。如果用冷气把它包围,完全能保证一个正常的值。如果用了虚拟化以后,当八点到九点的时候,更多的应用会集中在某一个区域出现,所以这个区域就会相应出现一些热点。企业应用在不同时段是不一样的,所以热点也会换一些地方,到了下午可能又会换到另外一个地方,这个时候给我们提出一个问题就是,所有的制冷设备能不能不按照房间级提供模式,根据动态的热点变化而相应的变化。第三部分的挑战就是管理方面的问题。每一个在座的都是公司的CIO或者IT经理,当接收一个新的数据中心的时候,这里边真的是乱七八糟的,不是按照我的方式管理的,同时你会想发现了一些服务器,但是我不知道这个服务器是谁装的,也不知道是从哪儿来的,也不知道它是干什么的,同时你的老板可能会说今天应该去安装一个服务器,把服务器装在第三排的机架里,我看那个机架很空。真的是这样吗?如果你觉得热的时候,你会把手放在后面感觉一下。如果有些设备和机架已经安装的时候,需要配合财务出差到外地贴一个财产的标签,或者只是用EXCEL去做一个编号的管理,而且保证数据中心安全的时候,主要是通过什么方法?只是去现场看一下设备是不是正常运行了。最后这个问题最终导致的结果,我真想一把火把数据中心给烧了。因为管理起来,第一,365天没有假期,没日没夜,问题会不断的出现,不仅仅是在日常运营中,一旦要增加一个新的服务器,哪怕是一个新的刀片式服务器或者刀片式托盘的时候,我们需要考虑很多很多问题,机架的供电是不是够,机架的空间够吗?数据接口够不够?制冷是不是够?如果接入到当天的供电,我要不要停目前机房整体的供电,会带来很多错误,数据设备的降低或者冗余的降低。可能因为这一台服务器的增加,会影响整个机房可能性的变化,可能这一台服务器带来的是整个机房半个小时或者一个小时供电的停止。帮助我进行实施的监控,哪个地方有足够的供电,哪个地方有足够的制冷,从而让我决定新的服务器最好安在哪个地方。负载增加了以后应该怎么办,才能保证高效可靠的数据中心是日常的一个运营。对于这些问题简单的回答,第一,针对数据中心的热点问题,如果紧靠热点制冷的技术,把精密制冷空调放在机柜行里靠近热源的地方,会局部采用行入级的制冷方式,而不是房间级的制冷方式。第二,在早高峰的时候这个地方出现热点了,安装的时候,所有空调部分都会有温度探头深入到机柜的送风口,监测送风口的温度,空调会根据得到的数据自动进行制冷容量的输出,通过空调紧密的配合,可以相应的去除这个热点。如果到了晚上高峰的时候,相应这个地方可能会比较热,会增大它的制冷量,最终降低消耗。如果到了夜间没有任何应用,虚拟化也停止的情况下,相应的会降低自己制冷的输出,从而降低整个能耗,节约电费。
这种制冷架构,如果全部采用紧靠热源的制冷技术,需要机架的时候再需要考虑制冷,没必要对所有的房间进行制冷。另外,不需要采用高架地板的方式,需要采用上走线的方式。整体的设计是模块化的,可以随着设备的增加而增加,两三天时间就可以实现。
如果原来房间级的制冷技术需要的是把这个冷气从房间的一端传输到热通道的中央,至少需要15到20米的距离,但是现在如果通过InRow的设计,可能需要1.5到2米的距离,大大降低了冷空气和热空气混合的可能,从而提高了制冷的效率。同时,它的配送也是通过水平送风的方式,完全不需要高架地板。虚拟化以后怎么节省了29%,我们增加了对基础设施这个层面,供电、UPS和制冷这方面的改变和优化。IT负载是120千瓦,服务器负载总量是90千瓦,实际上相应的是100%满载的供电系统,这个时候数据中心的效率是34.4%,IT设备比上总体数据中心的功率,如果进行了虚拟化以后,原来IT设备有90千瓦,其它设备有30千瓦,虚拟化以后,三台服务器虚拟化到一台服务器里,总的IT负载应该是60千瓦,有30千瓦是服务器负载,因为虚拟化以后90千瓦的1/3,就是30千瓦。数据中心整体的负载,原来是30千瓦,现在不做改变,因为原来的数据中心是无法进行改变的,所以数据中心效率降24.4%。数据中心的基础设施还在那个地方,有大马拉着小车。
如果对服务器的整个基础设施进行虚拟化以后,首先60千瓦的IT容量是不变化的,如果把数据中心的负载变成100%,原来120千瓦降低到60千瓦,满足IT设备供电和制冷的需要,数据中心的效率是51.7%,怎么去实现65%的节省呢?第一,需要合理的规划供电和制冷,真正的IT设备需要多少供电就提供多少,需要多少就买多少。同时,紧靠热源的制冷技术会大大提高效率,节约能源。同时,在没有装服务器的U层面上安装挡板,进行热空气和冷空气的阻隔,节约IT投入。很重要的就是我们需要重新规划供电和制冷,规划以后能不能够再增加?是可以的。如果采用的是标准化的UPS和供电、制冷的模块,一旦功率需求、IT设备需求增加,基础设施增加的需要,什么是有效的管理?确定一个标准,有效的管理就是确保供电高效的平衡,需要多少就提供多少,同时在真正需要制冷的地方提供制冷。同时,可以预见到数据中心需要容量的地方,或者有供电和制冷的地方是什么样的,同时,对数据中心整个硬件设备的生命周期进行跟踪,全程监控所有的数据中心里增减变化设备的整个过程的工作流。我们目前有这样的工具可以帮助客户去看,如果这边有任何的变化,这边的效率值也有变化,这是实时的,照明、供电、UPS、制冷、负载这一端所消耗的能源的比例。
这三个部分的问题,提供了相应的解决办法:第一,庞大的供电和制冷需要提高数据中心的效率,所以我建议大家要合理规划组建。第二,制冷会有热点,我给大家介绍的方法是靠热源的制冷的方法。如果想添加一台服务器,我建议大家做一个有效的管理。靠热源的制冷,容量及变化管理。通过热空气遏制系统,在现有的空间里架设高密度的区域,从而实现虚拟化和高密度设备的应用。还有合理规划的组建。这里边通过InRow的组建,可以达到多达15%的能源消耗,这都是数据中心监控出来的数据。整体的InRow的技术是通过后部的风扇,通过前部的风扇把冷空气吸入到里边,从而对机柜进行精密的制冷,只需要一个地板就可以进行实际的安装,我们也可以去监控。数据中心有哪个空域的位置增加一台新的服务器,如果明天的业务量增加一倍,需要增加CRM,增加五到十台服务器会放在什么地方。同时会提供一个非常实时的,包括数据中心气流分配,数据中心可用的容量,通过假想的情况做设计方案,让他做相应的验证和评估,同时也可以通过远程进行控制,去规划整个数据中心规划的工作流,即便是在休假的时候也可以完成整个数据中心的更新和设计。
大家可能想到一个问题,如果应用虚拟化以后,是不是意味着原来的数据中心就应该抛开?真正的绿色意义并不是这样,如何去最大化保留原来的投资,我建议如果真正在原来传统房间级制冷的基础情况下,需要去应用到新的高密度技术,我建议用房间级的制冷和热空气遏制的系统进行一个结合,在房间里开辟一片高密度区域,把高密度区域热通道完全进行封闭,通过InRow的制冷空调对热空气进行准确制冷,从而提高制冷的效率,这样的方式可以实现单个机架最高可以达到60千瓦的容量,这个值非常惊人,如果通过机架式的热空气遏制系统的话。这是一个很典型的示意图,从后部把热空气吸入,通过前部进行制冷,通过机柜排到前端。需要多少热量,需要多少供电就给你提供多少,一个很好的方法就是用模块化的标准化设计组件或者UPS和制冷,从而可以节约大概30%的消耗。构建一个500千瓦的数据中心,不是一天建成的,可以通过很多年不断的变化,最后实现的。
我总结四个部分,再次强调一下如何去除热点,第一用紧靠热源的方法。第二,用模块化的组件去降低UPS和制冷这方面的投入。同时,用热空气遏制系统在原有的数据中心里开辟高密度区域,应用虚拟化,同时用容量管理软件应对需要应对的竞争环境的变化带来的整个企业应用的变化。大家会想我还没有用到虚拟化,应该做什么?这就是我们现在应该做的,如果通过合理的规划,可以带来30%的节省,大家可以做一个平衡。如果通过服务器的虚拟,可以实现最多40%的节省。用更高效的或者紧靠热源的热点可以带来节省。如果用高架地板可以最多达到12%的节省,如果用外面的自然风可以达到14%到15%的节省。UPS不仅是在满载的时候转换率功率可以达到90%以上,更多的是在负载或者满载、空载的有非常高的转化效率。还有合理的配置空调,如果安装一些挡板,机柜在没有服务器的地方安装挡板,安装一些节能设备可以带来这么多的节省。在数据中心的效率在不改变的情况下,至少可以提高到40%到50%。如果运用虚拟化以后,数据中心的效率可以保证至少达到70%以上,而且绝对可以实现。
我的演讲到此结束,谢谢大家。
主持人:
我们在谈高效的管理、高效的节能,接下来演讲嘉宾的主题也是围绕“高效”两个字。有请Force10公司亚太区产品市场总监张传国先生。
主题:构建高效环保数据中心--利用有限资源满足业务增长需求
张传国:Force10公司亚太区产品市场总监
大家早上好。
今天所有的展板都是绿颜色的,今天大家关心的话题是绿色,说句比较刻薄一点的话,所有IT的东西都不是绿色的,所有的能源都不是绿色能源,按照摩尔定律的发展,18年翻一番。所有IT设备都不可能满足现在的需求,我们只不过在现有的情况下尽可能减少非绿色。
英特尔和APC都介绍了很多关于能源和节能方面的想法和思路,我今天想跟大家分享几件事情,一个是从网络、IT设备本身来看,目前业务增长和能源受限之间的矛盾,矛盾是什么样的局面,有多么严重。
我简单说一下虚拟化以及整合,对IT设备、对能源、对网络设备带来的挑战,然后过渡到网络设备如何来应对目前的问题。同时介绍一下Force10。
开始之前先问大家一下,在座各位有多少知道Force10公司的,请举手一下。看来有很多新朋友。
Force10是美国硅谷一个高科技工作,做网络产品的。主要产品是非常高密度和高性能的路由器、交换机,公司成立于1999年,在硅谷。为什么叫Force10呢?1999年开始推广万兆以太网标准,做了很多工作,今天在10万兆以太网标准组做了很多工作,目前10万兆以太网协会的主席是我们首席科学家。
我们跟大家在生活中并不陌生,目前在全球的大的互联网公司里,GooGLE、百度、雅虎、网易、盛大都是我们的客户,我可以保证大家每天可以很多次的通过Force10的网络设备,但是我们一直在背后,所以大家可能经常感受不到。我们在企业网也有很多应用,大部分是高端的、高密度的、大规模的数据设备。
我展示一下公司产品的图片,四维的图片,除了常规的大家提到的术语,比如高性能、高扩展性和高可靠性之外,还有高效能。
产品系列主要围绕几个层面,一个是核心的交换机路由器,目前可以说是全球性能和密度最高之一的网络产品。还有相当于终端交换机的产品以及接入层的产品。
目前所有的IT产业发展的非常快,来自于很多因素,一个是IT跟传统产业相比是新兴产业,发展肯定要比传统产业快。另外,从摩尔定律来看,所有IT设备的发展都是以一年半的时间就以翻番的速度发展。目前,IT产业所关心的问题是能源、增加竞争力、增加收入、增加服务成本的角度。2007年IDC的统计数字,大家关心最多的是怎么降低成本,IT成本很大一块是来自能源。红线是服务器这些年来的销售额曲线变化,服务器的量增加了很多,但是真正的销售额并没有增加很多,单机成本在下降。管理成本和能源成本在非常快速的增加。目前IT经理,CTO、CIO关心的问题,第一条就是power and cooling,第二条是空间,第三条是可靠性,因为现在把越来越多的设备压缩到有限的空间里,压缩到虚拟服务器里。
惠普有一个统计数字,1992年,每个机柜的功耗是2.1千瓦,2006年是14千瓦。如果在机柜内直接制冷,可以把单机柜的功耗提高到几十千瓦。以十倍甚至二十倍能量密度的增长速度,对空调制冷的要求非常高,对设备的效率提高要求非常高。IDC的统计数字,设备成本跟空调制冷成本相比,三年之后,空调制冷成本实际已经超过设备本身的成本了,表现了一个什么问题?摩尔定律是18个月翻番,但是供电网、发电厂却不能以同样的速度翻番,总有一天会发现IT对能源密度的需求超过目前的电网所能提供的能源需求,怎么办?不得不在各种方面,从各个层次、各个角度提高效率。
这张图是更详细的数据,从存储到计算、网络设备,1992年每平方尺的功耗从60瓦到10000瓦的发展。这张图是耗电密度曲线图,不是线性的。1992年到2004年发展的速度非常快,但是到2004年有一个折点,使用多核CPU的情况下效率提高了,能耗曲线有所下降。
网络设备单台能耗是提高的,在整个IT产品里占的比重实际并不大,但单位密度非常高,可以做到单位密度到一万瓦以上。网络设备在整个IT设备里是火上浇油还是救世主?可以从另外一个层面来看,网络设备虽然增加了单位密度能耗,但是网络设备本身的高效率,可以使整个IT设备的效率提高。网络设备实际在整个IT设备里所占的功耗比例并不高,占整个IT设备的10%左右。如果单端口的效率从50%提高到80%,对整个IT能耗的降低起了很大作用。
数据中心的能源效率,从发电厂发一千瓦电,有多少能真正到IT设备,到CPU,这个数字非常可怕,如果一开始发电是100%,经过发电厂到传输网络,到变压器、变电站、布线,经过机房的布线、制冷、辅助设施的消耗,经过辅助电源UPS,真正到CPU就剩10%几了,做了100千瓦的供电,真正到CPU就剩12千瓦了。假如IT设备本身从12千瓦省了6千瓦,省一半,带来的结果相当于省了将近60千瓦的电。IT设备的省电节能,对整个发电和供电产业链的节能效果是非常大的,只占10%,这里省10%,那里就是100%。数据中心的效率能不能提高,目前国际上有统计数字,可能不同的统计方法有不同的结果。我的图上显示,一个数据中心的使用效率实际不到30%,所有供电供到数据中心,和IT真正使用的能源供电量实际是30%左右。 中间是IT机房的能源,Power In 和Power Out到IT设备的在30%左右。数据中心能源进和出的分布,只有很小的一部分到IT设备,大部分是其它的辅助设备,包括制冷、空调、风扇、辅助电源。
几年以前这个问题还不是特别突出,传统行业,包括IT行业对能源的规划、能源指标评估还不是特别在意,或者不够细致,经常用的指标包括每平方尺的耗电量,每根线的安培流量,每个月的耗电量,每个机柜的耗电量,是比较粗的,直到目前为止,大部分企业还是用这个指标衡量数据中心的能源能效指标。目前国际上有一些组织,包括很多国家政府都已经积极推动更详细的、更细化、更量化的测量指标,包括细化、量化到服务器,每瓦能够带来多少Workload,比如每瓦能做多少伏点计算,用这个衡量服务器到底有多么有效,才能真正衡量设备的能源效率有多高。在美国如果买一个空调或者买冰箱,旁边会贴Energy guide,会告诉空调的使用量是多少,放热量是多少。美国EPA、SPEC和很多国家政府,把IT设备也要纳入Energy guide当中,会告诉每瓦是多少,放热量是多少,可以清晰地比较哪个产品更加绿色。
Force10在过去几年里做了很多大数据中心的项目,从客户那里学到了很多东西,有一点,客户经常提到做网络规划的时候,第一考虑的是能不能把网络规划的供电和制冷融入到现在整个机房的规划之中。虽然网络设备只占10%,但是对网络设备的性能、架构非常关心,虽然只占10%的能耗,但却能带来很大的整体能耗的变化。另外是未来的扩展需求。
虚拟化整合带来的挑战来自于多方面的因素,成本压力、提高效率以及能源压力。虚拟化对网络设备提出的要求是必须透明化,把数据中心虚拟化之后,希望能够随时调整服务器的负载,增减服务器的应用,希望网络是无感知网络,需要有网络的时候就有网络,需要带宽的时候就有带宽,没有瓶颈,所有的服务器之间连通是无阻塞的。虚拟化的结果,原来很多服务器压缩成了很小的,整个使用效率,CPU使用率和IO吞吐量都有很大的提高,使服务器的需求量、供电都减少了很多。
虚拟化和整个数据中心的整合对网络要求是统一的,首先一个要求是高密度和大容量,另外是要求高可靠性和高安全性,因为把更多的设备压缩到非常少的设备里,要求高可靠性和高安全性。统一和稳定的线速性能,把设备连到网络以后,不能说今天调整应用,网络的性能发生变化,或者出现丢包,或者出现网络TOP结构变化,这是不允许的。虚拟化之后,需要网络架构非常简单,同质化、透明化,可以随意、随时调整服务器以及应用。
虚拟化带来的单位能耗增加,这也是对摩尔定律的挑战。2002年的统计数字,假如要做3.7TFlops的伏点计算,需要25个机柜,512个服务器,1000平方尺,128千瓦。2007年只需要一个机柜就可以做,需要53台服务器,40平方尺,21千瓦,但是单位能耗密度提高了很多很多。当单位密度提高到每单位机柜能够承受的能耗以及制冷之上的时候,就受到了一个瓶颈限制。
网络如何解决目前虚拟化对IT设备和系统的压力,其中有一点,提高网络设备的性能透明化,网络变成无感知网络,一台服务器到另一台服务器通讯变得透明。统一网络架构,减少重复网络设施,以前的IT设施经常有存储网络、计算网络、IO网络、用户网络。目前用高效以太网,可以把多个网络合在一起。网络可以通过高效和高性能网络,优化网络设计,减少和压缩网络层次,消除无效功耗。如果网络里是多层的,从核心到会聚,到接入,网络设备之间的连接实际是无效的网络设备,产生的功耗是一种浪费。通过压缩可以减少网络设备。另外可以提高网络设备的单位效能,每瓦能够传输的容量提高,可以帮助整个IT设备提高能效。智能化网络设备能耗管理,目前很多国际组织,包括大的厂商都在投入研究这方面的东西,CPU在低使用率的时候可以把能耗降低,可以关闭,存储设备也是这样的,网络设备能不能做到这样?目前在向标准化的方向努力,将来网络设备可以根据使用效率调整智能管理。
通常来讲,IT设备里的瓶颈,包括CPU、总线、网卡、能源的瓶颈。在网络里大家关心的是I/O。服务器的瓶颈是不是跑到网络里?几年以前,PCI没有这么快的情况下网络做到千兆,现在做到40G的时候网络做到万兆,瓶颈始终没有产生在PC和网络之间。
虚拟化之后,因为服务器CPU使用效率和I/O吞吐量增加很多,对网络的要求,对网卡传输速率的要求提高了很多。一个简单的统计数字,网站公司前端服务器吞吐量是6-14Gb,中层应用服务器是1到4千兆,后端存储5-10千兆。无论做计算还是做搜索引擎,存储经常成为一个瓶颈。目前网络设备已经从百兆、千兆到万兆,基本解决了I/O吞吐的需求。万兆以太网使虚拟化、高性能成为可能。
统一的数据中心网络,传统网络经常把很多功能分开,比如管理网络、计算网络、存储网络都是分开,单独各自的网络,这样产生了很多问题,一个是使用效率很低,还有重复建设,不同的网络结构,不同的规划,浪费比较多。现在在高效能和高性能网络设备推出之后,可以做到把这几个网络合并成一个网络,整体使用效率提高了,网络数量减少了,网络规划、网络结构简单化了,而且管理起来也容易了很多,因为现在高性能以太网可以做到非常高密度的千兆或者万兆汇聚,解决精细计算或者搜索引擎,集群计算。再一个是存储网络。
网络设备的性能提高和密度提高,带来的优势是把传统网络多层结构压缩,以前的链接是不产生效能,不能直接连接服务器和外网,都是无效功耗。在高性能网络和高密度网络出现之后,带来的效果是可以把原来的三层网络压缩成一层网络,以前的网络交换可以变成背板交换,整个提高了网络交换效能。如果用两层网络接一堆服务器机群,48个千兆服务器,上行两个千兆做汇聚,这是经常看到的传统网络规划,有很大的浮动,24:1的浮动。如果用高密度的直联网络,省掉了服务器、交换机、链路的费用和能耗,同时效能也会得到很大的提升,单一服务器可以直接无阻塞的千兆接到核心交换机,原来的网络交换变成背板交换,性能提高了24倍,网络结构从两层变成一层,设备省了很多,能耗也节省了很多。
原来的方案假如有700台服务器,包括网页、搜索、存储,采用两到三层的混合网络结构,每台服务器平均的使用效率在15%以下。当采用了虚拟化之后,把服务器的数量进行压缩,通过虚拟化管理把多种应用结合到更少量的服务器里面,把网络设备从原来的两层、三层直接压缩成一层网络,CPU的使用效率提高了50%以上,原来的千兆I/O只有50兆,通过压缩之后,可以到200兆以上。通过CPU的提高得到的直接结果,原来的700台服务器缩减成400台的服务器,原来的三层网络合成一层网络。
第一方案的预算,从网络预算、服务器预算,还没有算整个能源预算,当我把网络性能提高了,可以把I/O提高,CPU使用效率提高,服务器数量大量减少。服务器节省的钱,设备采购的钱就省了很多,更不用说以后的后续维护成本的节省。
如果拿512节点的数据中心来规划,512直联和512通过两层网络来连接,得到的效果是节省了71%的能耗,直接的结果是节省了71%的制冷,省了80%的机柜空间。利用高密度的网络设备,带来的结果是设备量减少,后续的无论是空间、耗电以及制冷、维护成本都降低很多。一个网络设备或者IT设备的维护成本,三年就已经超过了设备成本本身。这个图有代表性的说明了这点,维护成本占的比例非常高。
非常详细的图表介绍了我们公司最高端的E1200设备的能耗图。把整个设备全部插满,冗余主控,插到48端口千兆,总共是14个槽位,总能耗能算出来,每瓦能够带来的8个Gb,总体能耗是5000千瓦,每千兆耗能是8瓦,672千兆。
做一个简单的对比,思科是在IT界占的比例很高的传统厂商,6509,单千兆能耗是9.95瓦,电口的千兆是11.4瓦。同等设备做到7.8千瓦和7.5瓦。我们的万兆单端口的能耗是1瓦,思科是113瓦。
1000多个千兆数据中心汇聚的规划,可以看出能耗的区别,能耗是9000多千瓦,在1000多个节点的数据中心规划里,同等的思科是功耗需求是18000千瓦。
EU的标准,将来在欧共体会推出一个等级的测量,网络设备,包括服务器、存储,一个是测能耗,第二是测碳排量,会打分,A、B、C、D、E、F、G,对业界会有很大的帮助,将来对采购设备、能源规划、空调制冷规划都会有很大的帮助。
这是美国的标准,Energy guide,对路由器、服务器、存储网络都会做评估,包括能耗、散热。而且美国州政府已经开始提供返点,如果企业用了节能设备,耗电,每瓦供电会给你减钱,鼓励企业使用节能设备。目前还没有到联邦政府的级别,但加州政府已经开始实施了,供电公司如果能够证明功耗、碳排放量在多少水准以下,可以在耗电上返钱。这是全球都应该推动的工作,尤其在全球能源危机和环境危机的情况下。
Force10主要做大的数据中心网络,对数据中心的能源规划比较了解。四维高性能,除了传统的网络设备的高扩展性、可靠性、高性能、高效能,单位千兆能耗是最低的,有一款产品是2410,是24端口的全万兆,1U的小盒子,容量是480G。每千兆能耗0.26瓦,这是全球最低的网络设备,尤其在高端汇聚的产品里。
以太网下一步的发展,使单位能源消耗降低,从千兆到万兆,能耗成了5,更高速的以太网出来之后,单位带宽能源会进一步降低。高性能以太网的典型案例是新浪网,汇聚了一千多台服务器,如果用传统设备来讲,可能需要好几个机柜设备,这是半个机柜,一台机架服务器。如果单看单机柜功耗,功耗非常高,如果平均到整个机柜,功耗效率非常高。
生态效率,比较直接的联想是汽车,比如买一台设备的耗电相当于多少辆汽车在路上跑了一年,一千瓦电要放多少碳,一辆汽车如果跑12000公里,碳排放量是10000镑。发一千兆电,碳排放量是0.5克。一年相当于13辆汽车的碳排放量。网络设备,包括服务器、存储,比较直观的翻译成汽车的排放量,这是非常直观的,用高效能的设备,可以更加绿色,怎样选择网络设备、IT设备。
谢谢大家。
主持人:
今天上午的大会会有一个抽奖环节,请最后一位演讲人给大家抽取精美礼品。
请惠普公司新一代数据中心架构师蔡建华先生,给我们做精彩的演讲,题目是“惠普适应性基础设施打造新一代数据中心”。
主题:惠普适应性基础设施打造新一代数据中心
蔡建华:中国惠普新一代数据中心架构师:
大家上午好。
数据中心,特别是节能与虚拟化真的是一个非常热的话题。惠普经常提到的是新一代数据中心。很高兴有这个机会跟大家交流一下惠普以何种方式构建未来的新一代数据中心,分三个方面,一个是数据中心面临的挑战。第二,构建新一代数据中心有哪些关键技术值得我们关注。第三,如何向新一代数据中心转变,惠普提供了哪些方案。
我们现在面临的挑战分为三个方面:
第一,IT系统建设到现在,在数据中心当中有很多历史沉淀的系统发展起来的,有各个厂家、各个平台、不同架构的。IT发展到现在,已经跟业务结合的越来越紧密,IT技术必须要更快地满足业务需求,但是我们在传统的IT项目建设中都是基于项目一个个建设起来的,孤岛式的IT系统或者烟囱式的IT系统,是现在数据中心存在的现状。
第二,跟今天主题相关的能源给成本带来的挑战。摩尔定律,技术进步带来的性能各个方面满足的同时,以前没有注意到的能耗也在不断地增长,服务器的价格一直没有变化,但是能耗的价格在不断上升,能耗的开销从今年开始会超过服务器的成本。
研究结构把数据中心当中典型的IT投资做了大致分类,在IT投入里,达到60%多的部分都运用在运营成本开销上。迁移和升级,特别是创新,做技术的要能够预见到业务需求的变化,更快响应需求的变化,在技术上下工夫研发投入,在整体的投资比例中非常低。向新一代数据中心转变的时候,要提高创新的占比,应该把更多的资源投入到更多的满足业务未来发展的需求上。
第三,现在基础设施的灵活性方面的挑战,特别是业务连续性方面,现在的架构不能非常快的支持满足业务需求的要求,数据中心各种各样的系统,非常复杂的管理,可能对业务连续性带来很大的影响,我们接触的客户在数据中心里会有成千上万台服务器或者设备,但是每天发生的IT事件超过200起,在传统的数据中心当中对业务的影响是非常大的,国内前一阶段有很多这种事例,特别是机场等等,都会有业务连续性方面的问题。
面对这些挑战,惠普提出应该构建新一代数据中心。我们对新一代数据中心有一个专门的定义,首先是基于标准化的构建模块。假如一个厂家基于自己独资的技术,一个人去开发、应用,支持也都是一个人,这肯定不是标准化的。整个数据中心用各种各样基础设施,包括机房的设计,都要进行模块化的设计,这是标准构建模块。还需要软件,一个是管理的,另外是处理整个流程方面提供无人值守的自动化的计算环境。最终提供IT服务的供应链,整个数据中心可能以后会作为一个服务,会有IT基础设施,会有应用,会有信息的服务,是面向服务的架构为最终用户供应服务。这样的数据中心直接解决服务、成本、更快的速度提高业务的灵活性等等。
惠普认为应该怎样构建新一代数据中心?首先有六个主要的技术要素,第一是IT系统平台以及相关的服务。系统平台是服务器、存储、网络等等机房里的基础设施。第二是电源与散热,第三是管理,第四是安全,第五是虚拟化,第六是数据中心无人值守自动化。基于这些技术的基础会做一些特定的解决方案,帮助客户从目前所谓孤岛式的高成本的,在各个方面花费非常高,业务满足也不是非常灵活的状态,向未来磁化的,向虚拟化转变,低成本的数据中心。
系统平台包括服务器、存储、网络,不同的厂商会推出不同的平台。现在的数据中心有一个非常重要的趋势就是高密度的计算,刀片性能显然是一个代表。我们预先配置好的笼子一样的整体机箱,里面会放刀片式的,惠普会和各个厂商进行合作,各个厂商的刀片,不仅仅是服务器,存储、网络等等都会整合放在这个笼子里去,再结合软件和配置解决方案,构成了高密度的基础设施。刀片性能有几个主要的特征:
第一,传统的都是相应分裂出来的,服务器、存储有些是分离的,在这里是整合的设备,所有的刀片是模块化的方式。
第二,管理非常方便。所有的基础设施都放在一个模块里,提供统一的管理,而且可以远程进行管理。
第三,虚拟化的技术,网络连接都是虚拟化的,在传统的做法,这里会放很多台服务器,需要一个个配置,一个服务器坏了,要进行替换,整个网络IP要随之变化、调整。我们以虚拟连接的技术,一次配置,以后随便插拔调换,IP地址以后都不用再担心了,会动态智能地管理起来。
第四,刀片系统的节能比传统的高很多,有第三方队伍对系统进行简单的评测,比传统的这么多台服务器或者CPU,比锋利模式的、机架模式的服务器,成本能源会达到25%以上。
惠普在这方面很早就开始投入研究,PUE是2006年惠普介绍给业界的一个标准。惠普认为数据中心的节能不是单独某一块的节能,而应该需要从整体进行考虑,所谓从芯片一直到冷却器的节能解决方案。从基本的开始,服务器跟存储设备使用组件级的,要用低功耗的芯片、内存,在工业标准服务器里用小硬盘,整个设计是能耗优化的,还有电源的利用等等。第二是机箱内的,就是刀片系统,能量制控的节能技术,在刀片系统里由几个部分组成,第一是PARSEC架构,通过把机箱里不同的区域,不同的结构布线、散热措施,在一个机柜里,网络、CPU、存储产生的热量是不一样的,对它进行散热的时候需要有不同的考虑,PARSEC在走线设计,惠普有20个专利。借鉴所谓的航空发电机,分布不同的区域做散热、制冷,最终的效果是让每一丝气流都要起作用,冷气进来,热气出去。最佳的路径是什么?机箱里不同的部位产生的热点是不一样的,如何让气流达到最佳效果,这是非常重要的。第二是风扇,也是从航空发电机借鉴过来的,速度能达到136英里/小时,比传统的风扇速度快很多,是智能式的、主动式的散热风扇,可调节。第三是电源,IT系统、服务器或者整个设备在使用的时候负载是不一样的,业务忙和不忙的时候负载有的时候很高,有的时候很低。在负载高的时候跟低的时候需要的电源是不一样的,但现在都按照满载的时候配置的。电源也需要磁化的管理,比如一个机箱里原来配了6个UPS,这个时候只需要2个UPS就够了,可以动态地管理起来。第四是管理工具,实现的是工业化计算目的,借鉴虚拟化以及整个管理工具配合使用的。第五,数据中心节能的措施,一般厂商关注的都是服务器、设备怎样做到节能,根据业界的统计,在整个数据中心里,耗电超过60%的是冷却方面,惠普关注的是冷却如何做节能。在数据中心里还有电源的使用效率,传统的电源经过一系列的转换,高压、低压配置,有的还要做直流、交流的转换,经过配电系统送到最终的IT设备里去,电源转换就有很高的浪费。传统的转换只有70%多的效率,从电线到最终的IT设备里只有70%。通过散热机柜和配电性能,可以提高15%的电源转换利用率。
惠普最先推出的对数据中心冷却的解决方案,服务器、机架里有一些传感器,通过网络放到中间的控制平台里,传感器会采集温度、效率这些信息,控制器的中央控制平台会得到整个数据中心热量分布、热点在哪儿,这个时候供热,那个时候供冷。如果发现这个地方供热,会连接到冷却系统里。中国惠普大厦里最近开发了新一代数据中心体验中心,动态智能散热技术得到了应用,大家有机会可以去参观。地板里的出风口都是被智能控制,多节开关控制,根据这个机架上的服务器产生了多少热量进行调节。如果工作负载比较低,温度不高,通过传感器监控可以知道,现在给它送风就会减小。假如比较热,风量就会相应的增加,这是冷却技术。
数据中心的安全技术。惠普从三个方面来做:第一,IT资源基础设施的安全,保证是可以信任的、安全的平台。第二,数据的安全,从数据的生命周期就要开始管理起来,需要有备份、管理的措施。第三,用户身份的安全机制,身份识别、加密等等,跟人接触多的地方,不仅仅是技术的问题,还会涉及到整个人员、管理制度,整个流程控制方面的问题。第四,管理技术。在数据中心里,管理人员对运维是比较头疼的,每个系统厂商提供的都是不一样的,惠普比较强调一致化的管理,带来的好处非常多。比如学习成本,IT技术人员培训是需要时间的,原来掌握了一个技术,现在又引进一台设备,厂家会不断推出服务器或者技术,是不是能保证同样的管理模式。惠普强调一致化的管理,各种不同类型的服务器、网络、存储,统一的由Systems管理,服务器可以运营在不同的操作系统上,支持各种操作系统,Systems会统一管理起来,包括虚拟化也都会统一管理,对基础设施的管理,以同样的逻辑,同样的操作界面,让管理者能够非常便利的、非常直观的做管理,这是管理方面的技术。第五,虚拟化。数据中心怎么虚拟化?虚拟化显然是对所有的基础设施都有要求,一开始的配置必须很简单,虚拟化有很多好处,但不能给管理带来更大的复杂性,需要模块化、标准化的基础设施,可以对它进行动态的添加、变更,要增加一个服务器或者CPU,会有变化,根据不同的负载情况做调整。从运营的角度讲,虚拟化做好了之后必须能够持续运营,像神经中枢一样,前面的已经虚拟化管理磁化了,能不能共享,根据负载不同的要求进行动态调配,新的业务来了,马上有基础设施提供给他,这些都是我们做了虚拟化之后进行持续的工作,很多需要通过软件管理实现。
惠普做虚拟化,所谓让虚拟成为现实,有三个方面:第一,虚拟化提出很直观的要求就是降低成本,根据业界的统计,现在数据中心当中大部分的服务器利用率都不超过25%,通过虚拟化做整合,减少服务器的数量,减少过量的配置使用,达到降低成本的目的,同样也是节能降耗的目的。惠普基于不同的平台会有不同的虚拟化解决方案,比如基于安全机械的,会有VSA,虚拟化服务器的环境。对于X86芯片服务器,我们会和合作伙伴一起合作。有了基础平台之后,我们需要有一个良好的管理,通过管理提高灵活性,进行统一的管理,动态的监测,最终提升服务质量,以共享的方式提供,不同的基础设施都可以使用这种资源,通过IT服务管理,通过服务与软件实现这样的功能。
惠普做虚拟化的时候提出全面的系统化解决方案,从桌面一直到数据中心最终的共享,比如传统的服务器,刀片的虚拟连接,网络虚拟化,电源也进行磁化管理,还有存储,现在的数据增长非常快,今天买1Tb,明天会5Tb,做管理的时候会不会带来麻烦,原来配置的时候,更多的技术人员、系统管理人员很头疼,原来的数据库或者其它应用,用的数据文件的空间,数据库的空间是特定的,以后假如空间不够了,可能整个要重新配置一遍,非常麻烦。我们在存储里是动态的管理,预见十年的配置,比如10Tb或者20Tb,今天可能只有1Tb存储进来,以后动态的往里加,对管理配置是没有影响的,这是存储的虚拟化。最终虚拟化的目的是要实现共享服务的转变。节能与虚拟化,也是绿色的数据中心,可以带来25%的成本节约。
最后一个技术是数据中心自动化,未来的数据中心应该是无人值守,不同的基础设施做变更配置、管理,比如打补丁,还有些业务进行升级,能不能让这些流程自动化?其实很多项目实施人员都会有比较痛苦的经验,尤其在新的业务系统上线的时候,可能会请很多不同平台的专家,把预案做好,这一步怎么做,硬件怎么切,软件到了这步怎么切,影响是什么,很多人工操作。未来的数据中心应该尽量减少人为的过程,因为这样的过程会给我们带来很多不可预见的错误。大部分业务连续性或者高可用性里出现的问题,人工错误会占很大的比例。惠普的CMDB,供应管理数据库,会把所有的服务器、存储、网络,预先制定的策略固化起来,每一个由业务引起的流程,都会有相应的策略对应。当然,比较专业的过程是需要人工参与的,比如有一次升级的过程,需要审批流程,整个过程结合起来,就会实现数据中心整体的自动化,在中国惠普大厦的数据中心体验中心也有这方面的演示,比如相对大一点的企业,在上海、西安、北京都会有不同的数据中心,有一次比较重要的业务升级,如何做,原来数据中心关闭,前端应用迁移,新应用的起用,整个流程已经可以实现自动化了。
怎样向新一代数据中心转变?惠普把向新一代数据中心转变分为四个解决方案。
第一,数据中心整合。整合分很多层面:1,基础设施层面,服务器、存储、网络,包括电源、场地、设施等等的整合。2,中间应用平台的整合,现在很多是三层应用架构,中间应用平台需要进行不同的整合,需要共享起来。3,应用于信息的整合,包括数据库、信息如何整合管理起来,原来每一个项目都会有一个数据库,在新一代数据中心里,孤岛式的方式是需要改变的。
第二,数据中心自动化。整个数据中心的变更、配置、管理流程自动化。
第三,业务连续性。数据中心必须提供不间断的服务,业务连续性解决方案是非常重要的方面。
第四,空间与能源问题。高密度计算,空间有问题,电源、散热等等都会出问题。
每一个方案会做什么内容?主要分四个方面。1,机房设备。今年的灾害比较多,机房选址要有更多的考虑,环境如何,还要关心地质环境、生态环境,机房能不能用得到电,防火、交通等等。机房里,服务器不同的区域怎么进行配比,机柜占多少,管理监控占多少,UPS,运维监控、自动化监控,怎么安排空间布局,还会有安全、网络、管理等等方面。2,基础设施,有网络、服务器等等方面。3,应用与信息,惠普提出运用现代化,需要SOA架构,面向服务的架构转变。4,管理与运维。
我们提供了评估工具,帮助客户从四个方面,技术、管理、组织架构、IT治理,制定路线图,分为五个阶段,第一是独立分割的状态。第二,做标准化、模块化。第三,优化的,集中做虚拟化整合。第四,面向服务的,建立整个供应链,基于SOA架构进行管理。第五,基于公司的共享式的基础设施,共享式的应用、信息。在整个数据中心当中可以提供哪些服务,服务目录,以供应链的方式提供给最终用户。工具评估的时候会提供现在的位置,未来的期望可以达到什么样,跟同行对比是什么状态,这个工具可以帮助我们做发展蓝图。
主持人:
谢谢蔡先生。
接下来的演讲嘉宾跟在座的很多朋友一样,是实际数据中心的建设者、使用者,来自于用户,合众人寿保险股份有限公司信息技术部总经理王卫东。王先生从2004年开始在探索新一代数据中心的建设工作,在昌平建设了新一代数据中心,在能耗节省,包括效能提升上做了非常有益的探索。
主题:企业数据中心构建与管理
王卫东:合众人寿保险股份有限公司信息技术部总经理
数据中心的建设,从我们接近四年以来的做法和体会跟大家交流。
合众人寿是2004年成立的保险公司,目前规模大概有接近一百亿的资产,在保险行业是小公司,也算有一点块头。公司目前在IT的投入算比较大的,人员有120人,有自建的数据中心,而且是大集中的方式。公司2004年成立首先做的第一件事就是筹建信息中心,其它各业务还没有开始起动的时候就起动了IT,起动的比较早。经过三年多的建设,目前已经形成了一定的规模,我从数据中心规划和管理维护两个方面跟大家交流,是我们实实在在的做法、经验,包括教训,希望对大家有一定的参考作用,第一,规划方面要合理设计。第二,在运营方面,希望数据中心运营力求做到主动。
这是当时规划的示意图,主要体现长远。在规划设计数据中心的时候,希望做到至少满足公司三年发展的需要。IT的投入非常大,投资方有可能不太理解,我们做预算的时候有几千万,他们觉得能不能省一省,但是我们当时坚持,无论如何在基础设施,尤其是数据中心建设上必须要有一定的眼光,至少要考虑到三年的发展需要,要立足长远。在北京昌平建的数据中心,当时在买地、规划用电,包括规划面积方面规划了十年,在具体的服务器配置上规划了三年。从现在来看,当时的坚持是非常正确的,而且公司的发展超过了我们的预期,去年数据服务器略微显得有点缓慢,我们适时做了升级。另外是分步实施,公司是从小公司逐渐做大的,要考虑成本,在基础方面考虑了十年,在服务器和其它设施投入方面还是分步,按照三年的步骤,体现在成本的节约,分步投入。第三是安全。
在数据中心建设的过程中,由于是自建,在土建工程、装修、电气、消防方面非常注重,可能和IT行业关联性不是特别明显,但是在数据中心的建设上请了很多行业专家给我们提供意见,非常注重,并且后续也把这个作为基础性的非常重要的方面考虑。主机的存储和服务器建设,主要用的IBM公司的小型机,前期投入用690,选这款服务器是从实际的角度,考虑到第一个是存储,根据业务预测,三年之内需要多少存储,要考虑保单量,设置4个T,目前来看是正确的。第二,从性能方面,根据网上公布的TVCC值,结合交易量的预测,购买690的IBM小型机,支持了三年左右的时间,到去年8月份有点缓慢。
目前有160多台各种型号的PC服务器,业务经营、公司管理和日常办公都需要IT系统的支持,基本含盖了业务的方方面面,在这方面的投入比较小心翼翼,以PC服务器为主。
我们非常关注数据中心建设的安全领域,不仅是公司的要求,也是整个行业的要求,包括监管部门对这块非常重视。我们在设计的过程当中,从多个角度,基本上要含盖从设备到数据,到网络,管理方面的制度、人员、安全方面的考虑。比如设备安全采用了一主一备,690配一台615做备份,三年以后用了一台新的570和690做差异化的备份。设备安全是我们考虑的重中之重,必须有这个机制。在数据存储上也是采用了差异化的备份存储机制,用的是IBM的设备。包括数据的备份。在网络方面都是一主一备两套,网络防火墙设置、防病毒管理方面,这个行业是以数据大集中的方式支持业务处理流程,所有核心的投入都在数据中心。
数据中心机房的环境安全方面考虑的比较全,系统在服务器上跑,服务器的安全也要考虑的非常全面,供电除了市电进来,还有发电机、UPS、服务器,多层设计。防水、消防、空调方面,我们都有比较专业的设计。
数据中心有一千多平米,目前在安全方面的做法能够让我们比较放心的进行业务上的支持。要提高设备的安全性,还必须靠管理的动作,我们从行业的角度,需要使用监控工具或者技术手段确保系统的运营状态,对数据中心的运营状态有比较好的监控,也采取了一些措施,同时还有管理机制制度,比如值班等等,保证数据中心的正常运转,这一切都是为了让数据中心的运转处于比较可控的调整下。
数据中心从筹建到现在的运营我们有很多想法,也有一些教训,有三点:
第一,数据中心的基础设施设计肯定要一次到位,不能像添油式的,一年一做,不仅导致服务质量下降,设计不到位,如果性能不够,存储不够,再去添加的时候服务质量就下降,也会导致服务的中断,同时,从投资方的角度来看这也是一种浪费,所以设计基础设施一定要一次性到位。我们当时跟投资方反复解释,说服他们,我们老板也说能不能用几台PC机拼凑,把这些业务支持起来,最后我们说服了股东。
数据中心的面积如果设计十年,一定要跟上,即使有一些面积暂时用不到,我们设计的面积是一千多一点平米,如果当时不坚持买大一点,现在的数据中心就有点悬。另外是用电。数据中心最关键的是如果没有电,就坍塌了,用电的额度我们要的比较足,要了1600千伏安的额度,可以管十年之内的用电量,我们规划的时候在这两方面一定要长远。
第二,数据中心建好以后,设备会逐渐投入,在规划这些系统的时候也就规划了服务器、设备,最好三年能够做一次规划,而不要每年都去做,太长远的也不实际。我们的做法是三年,现在来看有一定成功的地方,包括存储、性能方面,三年前做的规划刚好可以满足公司发展的需要,现在又做了另外一个三年规划,可以和公司的整体战略做吻合、匹配,三年做一次数据中心的规划比较合理。
第三,要强调安全,安全、安全,还是安全。数据中心的设施对于业务服务单位来说,不追求先进,公司不管你用的技术多么先进、多么领先,而是需要稳定,创新应该放在支持业务上,在基础设施上应该强调安全,安全应该成为数据中心的重中之重,这方面一定要全面,一定要做到合理、可控,所有因为安全导致的风险因素都必须在可以控制的范围之内。
数据中心的运营管理过程当中,我们筹建用了很短时间,开业到现在已经运行了三年多时间,公司业务也有了很大的规模,合众人寿在保险行业目前有一定的口碑,数据中心在运营管理方面强调一点就是要做到主动控制,这是我们要追求的一个境界,而不是很被动的为用户提供服务。对PC服务器的管理,虚拟化是我们正在做的动作,今年会做虚拟化的项目,这也是为数据中心节能方面的一个举措。服务器管理,希望通过无论是远程还是现场,希望对所有服务器的状态做到比较清晰的、合理的管控,各个流程得到保证。
对主机、CPU、存储方面有监控和预警机制。如果业务发展导致数据量的膨胀,在数据量达到百分之百的时候再去做相应的跟进动作已经很被动、很失败了,所以我们希望对数据中心的设备,主要是在主机存储、性能等等方面能够做到提前预警,我们做了一些动作。
数据库主要是考虑空间问题,性能也在考虑范围。
为了对数据中心的管理实现主动,对网络系统做了监控、预警,这是购买的专业设备、工具。
第一,数据中心运营过程中应该追求主动,不能因为我提供服务,所以就等着服务对象找我,等这些事情来了我再去服务。数据中心的预警,在即将预警之前能发现,从而采取措施,不产生问题,这样管理就是有序、主动的。
第二,数据中心比较复杂、庞大,肯定会出现各种各样问题,对这些问题的出现不能等已经影响到用户的实际运营,再去想办法,这是很被动的,或者出现了问题你不知道,用户终端传过来了,你再去解决,已经处于很被动的角度。尽量防范不出现问题,如果出现问题,我们希望第一时间知道,通过监控手段达到。如果出现问题,能第一时间知道,通过短信、邮件等等各种工具第一时间发现问题,迅速定位,查找问题,提供服务,我们主要是以监控为主。以上做好以后,就可以对整体信息中心掌控。
第三,突发事件,我们有一个教训,从北京到昌平的光缆被挖断了,这是一个突发事件,必须要有一套机制,无论用技术手段还是管理手段,必须有一套机制面对突发事件不乱,最典型的是灾备的建设,对重大突发事件发生的时候一定要有规划、支持,服务终端要最快的恢复服务,判断问题、解决问题、分析问题是后一步的工作,对突发事件我们强调第一时间恢复服务,以这个宗旨提供数据中心对突发事件的处理。
这是在数据中心的维护和管理过程当中,我们通过三年多,接近四年时间的想法、做法和实际体会,跟大家分享。
谢谢大家。