经济观察网记者 陈伊凡 7月15日,一袭粉色衬衫的张献涛站在屏幕前,通过钉钉直播2020阿里云弹性计算产品年度发布会,在会上宣布推出第三代神龙云服务器——目前整体算力最强的服务器,比目前全球最顶级云服
经济观察网记者 陈伊凡 7月15日,一袭粉色衬衫的张献涛站在屏幕前,通过钉钉直播2020阿里云弹性计算产品年度发布会,在会上宣布推出第三代神龙云服务器——目前整体算力最强的服务器,比目前全球最顶级云服务器的综合性能要快30%以上。
张献涛是阿里云弹性计算产品线负责人,经历云计算从无到有、从弱到强,在云计算一线已经工作15年。过去十年,阿里云的存储性能提升了2000倍,网络性能提升了500倍,整体算力以平均每12个月翻一番的速度增长,向摩尔定律的极限发起挑战。“十年时间的发展,我们重构了整个计算的服务模式。”张献涛说。
在阿里内部,神龙架构已经大规模应用于淘宝、天猫、菜鸟等业务,解决高峰值的性能瓶颈问题。在发言和后续的采访中,张献涛解释了当初为何阿里决定自研神龙,十年间企业需求的变化以及未来迭代的方向。
变化的客户需求
“十年前,我们可能更多是劝客户上云,但今天是和他们一起探讨如何选好云、用好云,解决性能、稳定性、弹性等这些方面的诉求。”这是在一线的张献涛发现的变化。
客户们的诉求,在过去10年间变得更加清晰,第一诉求是业务永续,第二是性能极致,第三就是对资源的极速、弹性诉求,第四个是自助服务。
这样的需求变化其实不难理解。对于传统数据中心,经常会碰到各种由于硬件故障或IDC故障导致宕机的问题,这些企业上云后,期待云计算能够解决他们业务永续的问题。
这也给云计算带来新挑战。“过去几年,我们不断做产品和技术方面的创新,我们有上百万台服务器,积累大量硬件故障相关的信息,通过人工智能及其学习的模式,对一个即将要发生故障的硬件进行提前预测,在发生故障之前,就把客户的业务通过热迁移模式,迁移到一台好的机器上,避免业务中断。”
此外,企业上云的另一个关注点就是如何提高业务性能。阿里的做法是自研神龙计算平台、盘古存储平台和洛神网络平台,通过这种软硬件结合的方式提升计算的效率。去年,阿里云发布了自研的针对人工智能业务的含光芯片加速器。
每个业务都可能有波峰波谷,当波峰到来时,对应的平台算力就要提升,否则业务就会受到影响。像有社会热点发生时,微博需要弹出几倍算力去应对热点事件,需要在几分钟内弹出几十万核甚至上百万核的算力,去应对突增的业务访问请求。
张献涛解释,这在传统IT时代很难完成,因为IT资源的扩充需要以月为单位来满足。“云计算时代,使用弹性计算产品可以在几分钟内弹出50万核来应对这种突发业务。”他们现在在底层平台也进行一些优化,和达摩院的算法科学家进行合作,对客户的业务负载做一些预测。
除了以上三点变化,客户还体现出自助服务的诉求。“也许客户没有提出这个诉求,但我们在和他们沟通的过程中发现,他们其实遇到了这方面的问题,在迁云阶段,也为了解决迁移上云难的问题,开发了一键式的迁移上云服务中心,还有一些自动化诊断、自动化运维编排的能力,能够让企业们免去人力运维。”
自研神龙
一直以来,性能损耗是虚拟化技术无法规避的难题,无论服务器多先进,只要是虚拟化,就一定会有部分性能要用在虚拟化调度上,这也是整个云计算行业尚未被解决的问题。
很多企业使用虚拟机和虚拟化管理系统的宿主机是 “共处一室”,这会导致资源的争抢,带来虚拟机计算能力的波动。云厂商没法把这台机器的全部算力给到客户。例如,一个32核的物理服务器,云厂商只能把16核或20核给到客户,剩下的12核需要对存储、网络进行虚拟化。
资源的浪费带来了成本的提升。正因为性能和成本的问题,很多企业上云之后又回到传统IT。为了解决这一问题,2016年阿里云低调启动了一项代号为“X-Dragon”的项目。
为什么决定自己做,张献涛解释,2016年正遇到阿里巴巴这个经济体的业务往云上迁移,对产品提出更高要求。他们在评估业界同行的芯片之后,发现无法满足阿里的业务需求,因为其整体设计还是传统的X86架构。
经历软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段后,2019年推出的第三代神龙架构实现了裸金属服务器、ECS虚拟机等计算平台的架构统一,用户可获得高质量的弹性资源,贯穿整个IaaS计算平台,并在IOPS、PPS等方面提升5倍性能。
“芯片研发方面是最难的,神龙云服务器是一年一代的节奏,但整体研发难度很大。”接受经济观察网记者采访时,张献涛说,首先要经得住稳定性的考验,毕竟其所服务的是大规模的客户业务,大规模做应用,十万台、几十万台服务器起步,这对于芯片的可靠性和稳定性的要求很高,所有芯片,尤其是数据方面,不能有瑕疵。因此,尽管去年9月份就已经在云栖大会上发布,今年5、6月份才推出产品。
张献涛说在这个过程中,团队更多是在内部的业务场景进行压测,例如双十一,可以让他们有条件做各种各样的压力测试。“所以在整个第三代神龙架构研发的过程中,怎样能够在快速的互联网迭代方式下,我们要能够解决掉芯片也能够随着用户周期的迭代,并且能够确保他的稳定性能,在这些方面对我们提出了很大的挑战。虽然我们在这个领域可能走的相对来说比较靠前,但在这个领域,大家面对的挑战,我相信基本上是一致的。”
2020年7月,阿里云推出第三代神龙云服务器,基于神龙架构再次将算力逼向极限,相比上一代整体性能提升160%,提供最多核、最大2086TB内存,在多项性能参数中斩获世界第一。
未来走向
曾经,一位在芯片领域从业多年的行业人士就做过这样的比喻:AI算法相当于菜谱、数据是原料、芯片这些就是烹饪的工具。这其中,数据是核心。
“做AI芯片最后能够扛下来的,都是拥有数据的那些公司。”拥有数据就意味着拥有场景,这对于很多芯片公司来说极其重要,他们需要这些场景为芯片性能做试验、提升。
这个逻辑同样也可以用在云计算厂商和传统设备厂商之中。正如张献涛所说,因为传统设备厂商的需求很多都是来自于云计算厂商。
事实证明,如今那些拥有海量数据的巨头们,都已经进入自研芯片市场。百度和三星合作,使用14nm工艺,基于自研的XPU神经处理器架构,推出昆仑AI芯片;阿里成立平头哥芯片公司,推出自研的玄铁910CPU、含光800AI推理芯片。
“神龙架构发布后,带来的优势不仅其他云计算厂商看到了,传统的设备厂商、做网卡芯片、做存储芯片的厂商,现在都在朝着神龙的架构来做,下一代产品的规划,其实都是照着神龙的架构演进的。”张献涛觉得很欣慰,因为在这样一个关键技术方面不再孤独,这个也说明代表了未来的趋势。
张献涛在采访中表示,下一代神龙服务器会从存储的性能以及安全方面有所提升,“不是说现在不安全,是大家对各种各样业务场景的适配。就像今天我讲的在可信计算领域、金融领域,还有一些合规性的要求,这些领域对特殊的加解密算法,各种和场景合在一起的需求,这些方面的增强,我觉得是未来我们第三代会重点去进攻的方向。”