作者| 宇多田
出品| 虎嗅科技组
封面来自视觉中国
就在昨天,中国内存厂商长鑫存储(便是睿力集成),其悄然变更的股东信息引发了一些媒体和产业骚动。
因为在新增的19位股东中,“阿里巴巴”“腾讯”这两个名字极为引人瞩目。
图片来自企名片
合肥长鑫,这家成立于2016年,但注册资金高达485.7亿人民币的“创业公司”,是目前大陆唯一一家拥有Dram内存自主生产能力的芯片厂,背负着众多期望。而毫不意外,这个作为服务器“三大物理硬件”之一的内存芯片类型,对云计算巨头有多重要,自然不必多说。
易失性存储器 Dram,与NAND闪存同为存储产业最为流行的芯片类型,是一个全球规模约为900亿美元的市场(数据来自TrendForce)。这个数字看起来虽然并不庞大,但几乎被三星、海力士以及美光三巨头瓜分完毕。
因此,从供需稳定来看,正是由于真正Dram制造厂在国内的稀缺性等原因,让管理着庞大服务器机群的云计算厂商,需要提高对N种采购备选方案的掌控力。
作为超大数据中心的运营者,云厂商们都是Dram芯片的巨大消耗者。举个例子,亚马逊曾在2019年因三星Dram产品在设计层面存在底层缺陷而取消订单,对后者当季营业利润打击很大。
另一方面,权威市场分析机构Digitime整合业内消息来源认为,2022年云服务器和数据中心应用将成为Dram芯片市场主要增长动力,恢复大量出货势头,预计整体市场需求将增长15-20%;此外,美光在2022第一财季的数据重心业务增幅高达70%,主要贡献来自Dram与SSD产品。
而消息人士告诉虎嗅,业内预计从2022年第二季度开始,数据中心需求才能更加明显。
云巨头的硬件掌控力野心
另一边,毋庸置疑,与CPU、GPU及各类加速器一样,存储芯片对服务器架构创新与性能的颠覆同样具有极其重要的影响。
对于云厂商,巨大的计算并行处理量与神经网络规模巨幅增长,必然要求处理器更快从内存获取数据(这一点在文章《干掉英伟达?》里曾多次提及)。但宁畅信息技术专家告诉虎嗅,当前计算机是冯诺依曼架构,计算数据必须放在Dram内才可计算。所以,程序的大小决定了内存的大小。
“因此,单个程序和数据占用内存空间不断增加,导致内存容量持续扩张。为保持性能不下降,内存速率需与计算核数量同步增加。但实际已经快做不到了。”
去年,IEEE研究员兼3D存储芯片专家Joungho Kim也曾喊话,内存与处理器之间的性能差距比任何时候都要大,冯诺依曼架构现在应该叫“冯诺依曼瓶颈”。
因此,更多内存技术创新,在近年来,便围绕“怎样减少数据在芯片间的移动”展开了。
在阿里云开发者社区,数据专家曾详细科普过HBM(高带宽内存)、HBC(混合存储立方)等新型服务器内存。这一技术路径的思路比较直接好懂——让内存尽可能靠近CPU或GPU。
(经提醒,这里需要着重强调一下:这里指的是HBM技术在内存产品上的创新,早在2016年AMD等企业就已经提出过HBM方面的创新点)
更具体一点,就是将处理器与内存堆叠成一个3D矩阵,然后凿在服务器主板上。
它的最大优势,理论上,便是可以在极低频率与能耗下带来大带宽。
这一技术路径反应在产品上,便是2021年8月三星发布的内存处理芯片——HBM2-PIM。三星技术专家用一种叫做硅穿孔(TSV)的互联线把Dram垂直连在一起,放在逻辑芯片上(下图)。
通俗一点讲,就是让一堆Dram簇拥着计算单元,齐心协力做跟AI任务相关的神经网络计算。
3D堆叠PIM-HBM
这一技术在2021年曾引起过存储产业内的轰动,但还尚停留在实验阶段。不过,头部存储企业已纷纷闻风而动。譬如,美光悄然为一种3D Dram技术提交了专利申请,而半导体材料巨头应用材料也迅速发布了一套3D Dram材料工程方案。
正如,EEtimes所说,这可能需要好几年,但 Dram 很可能会追随NAND的脚步,走向3D。
而阿里前段时间也曾发布过基于Dram 的3D 堆叠存算一体芯片,相关论文还被ISSCC 2022收录。当然,此为研究,并未投产,但这也是一个非常重要的信号。
很显然,对于服务器基础架构一直十分重视的云巨头,在以肉眼可见的方式,逐步“吞噬”服务器架构中的各个核心关键点——
以亚马逊AWS为例,在2015年收购以色列的安纳普尔纳峰实验室后,便从2017年开始,陆续推出了DPU芯片Nitro、Arm服务器CPU Graviton、Graviton2及Graviton3,以及机器学习训练加速器 Trainium 和机器学习推理加速器 Inferentia。
而阿里等中国云巨头在芯片研发上获得启发的时间,恰好是在AWS发布Nitro DPU前后。如今,基本也完成了从服务器CPU到AI加速器的“同等类别装备”。
基本可以明确的是,自亚马逊开了先河后,不断垂直整合云计算从底层到上层业务,把服务器架构自研能力掌握在自己手里,如今在顶级云厂商间已经达成了共识。
“阿里的野心,或者说魄力很大。”
一位不具名的服务器专家告诉虎嗅,阿里基础架构事业群AIS,在服务器架构自研与创新走的挺快,只是因为比较底层所以外界不太了解,知乎上甚至有人直接把他们归为“做运维的”。
由于这个事业群相当于整个阿里云软硬基础设施的“管家”,所以,各类技术专家集结在一起,必须在服务器、内核、容器、JVM、调度、数据库、存储、中间件等多个数据中心“节点”上做迭代与创新,当然,它也在采购和销售上有KPI指标。
“在存储这一块,他们是有一些想法的。基本是两条路, 第一个当然是买现成的三星海力士美光,另一个是从前年开始吧,阿里自己买‘颗粒’(内存芯片),来自己做DIMM。” 他说,AIS在实验室水平上应该没问题,量产可能会有挑战。
“更重要的是看他们的整合思路——加速卡(AI, 存储)、网路(DPU/SmartNIC)。芯片是平头哥或其他部门来做,但需求方则是AIS、阿里云以及蚂蚁金服。需求方也非常重要,决定了用什么、怎么用,以及怎么用能够让效能发挥到最大。”
他提醒我们要关注英特尔 IDM2.0开放战略,特别是不久前“要对外授权X86的策略和猜测”——“我想,很多人应该很快会有动作的”。
此外,根据虎嗅近一两年来从多方了解到的信息显示,阿里在云基础设施硬件创新和战略速度层面,虽然存在部分争议,但在国内的确要胜其他云厂商两三筹。
很明显,对国内存储市场的重视和投资,无论是保证供应链稳定还是技术创新,都极为有必要。
只有云厂商才能推动的存储芯片进步
在2020年写台积电时,我们就曾提过,如果说苹果、高通、英伟达们高端产品的成功,台积电的先进制程工艺必然是最大助力之一;那么台积电总是能占领最小制程高地的原因,前者也必然功不可没——
最好的下游技术与产品给你“导航”和试错,才能跟竞争对手打出一个漂亮的时间差。
那么云计算与半导体的关系同样如此。
譬如谷歌推出TPU时被普遍叫好,并使得GPU厂商产生警惕。很大原因便是,作为成千上万块芯片并行运算的使用者,云厂商太清楚芯片的问题到底出在哪儿了,毕竟样本实在是丰富。
早在几年前,多伦多大学曾做过一个关于“Dram致命缺陷”的重要课题。
他们经过多方周旋,终于从阿贡等大型国家实验室、谷歌和Facebook的大型数据中心取得了大量宝贵样本。让他们感到震惊的是,关于Dram的错误很常见,而一些数据中心的重大宕机事故更是源自Dram失常。
以谷歌为例,他们发现12% 到45% 的谷歌机器每年至少会遇到一次 DRAM 错误,有0.2%到4% 的机器由于 DRAM 错误无法纠正而意外关闭。
而在以往,无论是大型数据中心还是个人电脑中,产业内都会把Dram错误更多归咎于“软性问题”——根据IEEE杂志的解释,当物理设备在完全正常工作下,会受到某种短暂干扰(如宇宙射线产生的粒子)因而破坏了存储数据。
但这个想法此前几乎没有充分的实验支撑,某种程度上就是缺乏样本。没错,企业数据中心不愿透露,而实验室的样本量又少。实际上,经过他们的调查,结果令人震惊,其实大多数错误来自“硬性错误”。
没错,就是Dram芯片本身存在的问题。
调查者获得了谷歌某些数据中心的权限,在调查后发现,是一小部分机器造成了大部分错误。也就是说,错误倾向于一次又一次地出现在相同的内存模块上。
那么我们试想一下,如果是软性错误,譬如某个射线粒子导致Dram失常,那么应该被击中的几率是相同的。这就意味着,以前的论断都是错误的。
IEEE最后给出的解决方法偏向于云计算厂商,譬如,利用计算机操作系统来删除和预测内存错误地址或内存页。
但从硬件角度来思考,云厂商恰恰能发现那些实验室和消费端产品测试不出的硬件错误,极有利于半导体厂商改进和升级下一代硬件。
这可能也是云厂商一个个被戏称为“已变成CPU或存储器公司”的最大原因之一。
但无论如何,从设计、制造、量产等综合难度上,硬件需求量庞大的云厂商依然需要强依赖于半导体厂商。而云厂商的自我底层革新,以及与半导体巨头的紧密合作,或许在3~5年里,会对我们国内尚未壮大起来的存储等其他方面的自研能力,有一些实质性的帮助。
我是虎嗅科技组主笔傅博,关注半导体与自动驾驶。(:fudabo001,加请务必备注身份)
正在改变与想要改变世界的人,都在 虎嗅APP