各位来宾,大家好,下面由我来跟大家分享一下阿里巴巴在基础设施领域里面所面临的机遇和挑战。
我们作为整个阿里巴巴的基础设施的团队,支持了来自整个淘宝、天猫为基础的电商的集团,以及以蚂蚁金服、支付宝为核心的金融集团,以及以菜鸟网络为核心的物流的板块,整个三大集团基础设施的服务。对于我们来讲会遇到一些压力和挑战。
对于阿里巴巴来讲,第一,我们会有一个国际化的全球的基础设施。第二,我们有一个全球化的网络,背后我们有非常大量的服务器的保有量以及每年有相当数量新增的服务器量。这么大的规模,表示我们有一个大的挑战,如何去运营,如何提供技术,都是一个非常大的压力。正是因为有了这么一个规模,才带来一个更加明显的挑战,同时也带来了基础设施发展的机遇。首先如何来降低成本,是最原始的驱动力,但是光降低成本其实不够,还有一个更重要的,如何构建技术竞争力。
我们如何应对这些挑战,我们总结了一下,我们基本上是通过三个方面来做。首先是白盒化,最大的好处是我们把很多技术share起来,事实上白盒化并不是简简单单说为了一个成本。第二个方面是架构一体化,我们需要从上面的业务到下面中间的应用,到基础软件平台,到我们硬件甚至到芯片,整个一体化设计。另外,智慧化,我们不仅仅提供一个设备、提供一个技术、提供一个软件,我们还提供一个7×24小时、365天的不中断的服务,Online的服务会带来对基础设施稳定性的挑战,我们需要智慧化的手段来应对挑战。
下面从数据中心本身的风火水电、服务器、网络,这三个层面上来分享一下我们如何在白盒化、架构一体化以及智慧化层面的一些思考。
首先讲一下数据中心,数据中心领域也是从白盒化的思想来做的,我们一直以来无外乎在两个方面解决我们的一些问题,首先是降低PUE,另外一个是提高用电效率。从阿里巴巴来讲,从很早以前我们租用数据中心,到我们的定制,到我们后来在千岛湖通过湖底的水作为冷源,来冷却我们整个的数据中心。到后来在张北建立数据中心,从部分的风冷到全部的自然风冷,通过自然界的温度来降低我们的能耗。到未来,我们是不是有可能在自然条件下差一点的地方来做事情,降低PUE,比如在南方、华东、华南也能把PUE降下来,未来液冷会是我们的一个方式,阿里巴巴已经在液冷方面做出了一些探索,也有一些落地的东西,这些是我们不断在追求的一些目标。在另外一个层面,用电效率,从我们最开始的双路市电到UPS等等,这些都是在用电效率上的探索,我们所有数据中心风火水电的工作无外乎围绕这两个方面,我们做了非常多细致的工作。
接下来讲一下服务器,服务器也是这样的,我们从最开始购买一整台服务器,到从整机柜,背后是从一个整的服务器到部件、到芯片,都逐步在做白盒化的工作。我们不断从一个整机变成CPU的定制,最初规格的定制,到微架构的定制,包括我们越来越多的智能网卡,因为现在很多的网络已经开始从交换机逐步落到服务器,最后落到网卡上,这也是服务器白盒化。结合AI,比如像FPGA,包括NPU等等,这些也是要考虑的范畴。
接下来讲一下网络,我们会从最开始网络的一些基础设施,从最下面的传输到模块的自研,到上面交换机,包括OS层面的自研,再往上我们还会有一些基础的软件,比如涉及到一些VPC的、虚拟网络的以及涉及到服务化QoS,包括整个流量的调度,包括进行DDoS攻击的一些软件的平台,把每一项技术从最开始使用集成的解决方案,到深入到每一层来白盒化的解决方案。
事实证明白盒化其实是不够的,光白盒化只是解决了一部分工作,我们的目的是架构一体化,实现竞争能力。比如把PUE降低了够不够?不够!还需要跟我们的服务器、网络,包括服务器的用电量,怎么有机的结合起来。事实上我们看到我们做一些硬件,可能想象的我们做一些硬件以后,只是把硬件本身的白盒化,再往上可以做一些软件的适配层,通过IO读和写更细致的工作,更上层比如块存储,再往上分布式存储系统等等,再往上数据库等等的应用,能够做到一体化的架构设计,最终是实现整个系统极致化的性能。大家前面也听到讲AI,AI下面FPGA和GPU,假设我们要做一些NPU这样的计算单元,我们如何来思考,用什么样的机型,有些公司在做一些高密度的GPU的机型,这些都是在考虑的一些事情。整个从白盒化到架构一体化,这是我们非常重要的核心,也是我们体现技术竞争力。
最后讲智慧化,前面讲到我们作为一个提供7×24小时的服务,我们会面临很多现实的问题,不是把设备起来、软件做好就好了,可能面临着部署,物理的部署要部署好,软件的部署要部署好,要保证7×24小时的服务,这里面会出现很多问题和故障,有了故障之后我们会对业务造成什么影响,如何快速的发现我们的故障,快速的定位故障,快速的修复故障,这些数据中心就会带来一个非常现实的演进的过程。最开始部署来讲,规模小的时候员工手工搞定就可以,规模大了一定是不行的。怎么样实现信息化,这是第一步。第二步,实现信息化以后要实现自动化,只有自动化才能提高我们的效率,信息化到自动化是提高我们效率的一块。走向未来是智慧化,我们如何在数据中心里面让我们用电的效率更高,如何在数据中心里面能够实现无人值守,如何能够在网络、服务器发生故障的时候我们能够快速定位root cause,到能够快速恢复。
总结一下,基于我们大规模成本以及我们在整个的技术竞争力的考虑,我们用了三个方面的原则和手段,通过白盒化,通过技术架构一体化,通过数据中心的智慧化,来解决我们的问题。谢谢大家!
©2024 aliyunhn.com. All Rights Reserved 中科九洲科技股份有限公司-阿里云河南授权服务中心 豫B2-20080032-14 统计