高可用数据中心,一个艰巨的任务
如今在各地都能看到各种云计算园区和大数据园区,据不完全统计全国现在大约有50万个大大小小的数据中心。大量的新兴和改造升级的数据中心的出现带动了整个行业的变化:一个显著变化是大型数据中心越来越多。如今10万台、50万台服务器规模的数据中心越来越常见。根据相关统计,以AWS、Google、微软为首的全球10个超大规模数据中心其服务器部署量占到了全球服务器保有量的10%;另一方面,传统IDC也在频繁进行并购和整合以提升竞争实力;第三个变化,随着节能环保理念的深入人心,绿色数据中心正在被广泛接受。
与此同时,数据中心的各种故障也是频频爆出。根据有关机构的一份2017年的数据统计,18%的数据中心在一年内出现过宕机等业务中断的情形,另有50% 的企业虽然没有业务中断,但也发生过异常事件。因此,如何保证数据中心的高可靠和高可用、低能耗,同时还要降低整体运营成本,成为摆在很多数据中心管理者面前亟待解决的问题。
“数据中心出现宕机、断电等事故,其原因可能存在于数据中心全生命周期中,包括从一开始的规划设计到中间的施工再到最后的运营,每个阶段都可能诱发最后的事故。”施耐德电气IT业务部数据中心业务架构总监张子扬表示。
张子扬举例说,某些超大型的数据中心设计时水系统也采用了双环路双系统2N设计(即一主一备),看似高可用了,但有实际使用过程中出于经济性的考虑,采取单路单系统运行,另一套系统处于长期闲置的状况,一旦需要进行切换时,其长期闲置组件没有验证,就会出现切换时的故障或无法实际切换的状况,所以做设计的人,应该首先了解业主真实的使用状况,以终为始进行设计,不能追求过度冗余。
显然,要保证数据中心的可靠运营并不是一件十分容易的事情。正因为如此,施耐德电气推出了数据中心全生命周期服务。张子扬介绍,这是一个沉淀了施耐德电气在数据中心36年的技术积累、覆盖数据中心设计、建造、运营的一揽子解决方案,能够真正覆盖从CAPEX到OPEX阶段进行全过程管理。
“我们会聚焦在四点:第一,在设计上我们会推出咨询设计和设计验证服务以保证设计过程本身是可以验证的,降低系统性故障和更贴近真实业务需求;第二,在建造前后进行双验证,前面是设计验证,后面是测试验证。这样才能实现透明数据中心建设过程;第三,抓住运营,提供永续运营的能力;第四,进行二次评估和优化。这是一个完整的闭环过程。张子扬介绍,其最终目的是:通过标准化的、可视化的工具为客户提供全过程的规划、运营、升级服务,提高可验证性,降低运营风险,为用户的数据中心永续运行提供保障,实现可持续发展。”
设计和建造阶段,验证的价值不容忽视
一个好的数据中心是从科学的规划、设计开始的,科学的可验证型的规划设计加上可追溯的建造能为后期运营打下一个非常好的基础,从而大大降低后期数据中心运营时的隐患。
张子扬告诉记者,数据中心的设计和建造过程中普遍存在如下问题:数据中心建设规模超大,需要管理的资产非常庞大,资产本身所产生的信息更是数量级增长,但是我们的数据中心选址、设计过程缺乏验证,盲目跟从美国,没有形成自己的验证标准;建设阶段运维人员很少介入;建设标准和度量衡落后,未完成从面积造价的不精确模式向IT机柜造价的精细模式的转换;缺乏有效工具和方法论。
根据上述问题,施耐德电气提出了自己的全生命周期服务。区别于常规数据中心全生命周期分为四个环节(设计、实施、验收、升级改造),施耐德电气的全生命周期服务细分为9个环节,即在设计之前加入了咨询环节;在设计和实施之间加上了设计验证;实施后又加上了测试验证和验收环节;以及最后的运营、升级改造和新数据中心选址。
施耐德电气数据中心全生命周期服务的9个环节
强调验证是施耐德电气全生命周期服务的一大特色,施耐德电气也是业内首批提出“设计验证”者之一。所谓“设计验证服务”是指终端用户在最终投入总包实施建设前,一次关键性的模拟故障、性能推演服务,以降低系统设计风险,并优化核心指标(PUE、可用性、可验证性)。由于设计验证是真正动手实施之前需求的最后一次系统性的梳理,非常关键。
张子扬介绍,设计验证需要借助一些工具帮助客户在方案阶段、图纸阶段就检查各种保护是不是成立的,来降低系统性故障和系统性风险。为此,施耐德电气提供了很多工具,包括权衡工具以及设计参考等,可供免费使用。
“大多数时候,设计中的问题都是隐性的,不容易发现,要追溯比较难。施耐德电气致力于在业界建立一个度量衡,来看看最终的设计跟初衷(如能效指标等核心指标)是否一致。”张子扬说。
WHOES法则是施耐德电气的全生命周期服务的又一特色,也是施耐德电气多年积累下来的经验总结。WHOES是5个英文字母的缩写,分布代表了5个方面的内容,即What(这个客户是谁、他的业务是什么样的)、How(寻找什么样的路径来实现这个目标)、Optimize(对寻找到的最佳路径进行优化)、Engineering(如何工程化、实施落地)、Standardization(把整个文档标准化,并作为一个完整的文件交出去)。
“WHOES法则是施耐德电气总结的一个方法论,如果设计工程师都能够按照这个来做设计,准确度和效率都会高很多。施耐德电气的架构师都是按照这个WHOES法则进行工作的,这也是我们做咨询设计和设计验证的优势。”张子扬表示。
运维到运营 赋予服务更高的价值
数据中心是一个长期的投资,除了前期的设计和建设,后期的运维一样重要。与设计和建造不同,一旦数据中心投入使用,运维将会始终相随。而且,如前所述运维对数据中心的可靠性和可用性的影响是显性的、直接的,比如,数据中心停机事故中人为误操作高达70%。
“根据我们的经验,数据中心运维真正的考验是在数据中心建成5年以后,此时设备进入老化阶段,压力会集中爆发。”施耐德电气IT业务部全生命周期服务业务拓展经理蒋胜表示,但在实践中客户普遍重视设计和建设,而对运维重视程度不够。
蒋胜介绍,数据中心运维的关注重点是可用性、可靠性和能效,这些都是一个长期的工作,需要持续改进的。正因为此,施耐德电气更愿意将数据中心的“运维”称为“运营”。
“运维是指运行和维护,这个是最基本的,是保证数据中心正常的运行;而运营指在数据中心在运行的过程中要产生价值,要不断优化,要给客户带来价值,甚至可以为客户优化成本并帮助客户实现主营业务的增值。”蒋胜说。
他介绍,施耐德电气在运营服务方面分别提供三个层次的服务,一个是维护集成服务,它相当于服务的总包,集成管理客户所有的供应商,维护合同,帮助出报告和出维护标准。第二个是维护管理服务,比维护集成服务高一级,如果供应商不能够及时到位,施耐德电气会派工程师到现场服务,另外还负责制定运维流程。第三个是关键设施运营,国内普遍称为代维服务,是驻场服务,也是最高等级的运营服务。
近年来,有些客户提出打造自己的数据中心运维团队,蒋胜认为,客户最应该做的还是专注于自己的核心业务和竞争力建设,这也是数据中心运营服务的核心价值之一。除此之外,运营服务的价值还包括获得更多的正常运营时间和更高可用性、可靠性;通过优化和维护来实现节约成本;通过基于标准的、质量驱动的全面能力实现服务的可伸缩性(既可以给客户提供驻场服务,也可以培训客户自己运维)等。
今天,随着数据中心的大量涌现,市场上出现了不少提供数据中心相关服务的厂商,服务也林林总总。蒋胜告诉记者,相对同类业务施耐德电气全生命周期服务的不同之处在于全方位的解决方案。
“施耐德电气在数据中心拥有覆盖最广泛的产品线和解决方案,以及丰富的数据中心运营管理经验,我们拥有一套完整的标准化的流程和专家级的维护服务。此外我们也不断针对客户需求推出多种数字化工具,比如数据中心数字化运维平台、数字化能效管理平台等,以推动数据中心管理的数字化转型。这些都是施耐德电气与众不同之处,也是能帮助客户最终实现卓越运营价值所在。”蒋胜说。