Intel 4是英特尔首款EUV工艺技术,标志着英特尔在工艺技术上重新与台积电展开竞争。本文还将讨论Meteor Lake和Arrow Lake的系统架构,以及重新设计Redwood Cove和Crestmont的核心架构变化。最后,本文将讨论坡道时间表、竞争定位和制造成本方面的一些问题。
几周前,英特尔主办了名为Vision的会议,会议主题广泛,包括当前和即将推出的产品。SemiAnalysis公司参加并与英特尔的同事进行了很多精彩的讨论。其中最有趣的一次是Pat Gelsinger在回答我们的问题时明确表示他将收购更多SAAS公司。其他还包括能够查看英特尔的一些产品,能够面对面向工程师询问技术问题。对我们来说,其中一个亮点是有机会拍摄各种英特尔产品的照片,特别是英特尔的一些网络产品,例如:Tofino 2、Tofino 3和Mount Evans IPU (DPU)。虽然还不能深入谈论Tofino 3的功能,但它是世界上最大的BGA封装。
展会上最有趣的实物是硅晶圆。其中包括Alder Lake桌面CPU、下一代Sapphire Rapids数据中心CPU和下一代Meteor Lake计算区块。他们还展示了一些英特尔20A和英特尔18A工艺技术的测试晶圆。虽然我们自己也拍了一些Meteor Lake的照片,但我们在comptoir - hardware的朋友拍到了一些更好的照片。他们能够将Meteor Lake晶圆放大到晶圆上的单个芯片。这张图是我们接下来将要进行的许多分析的基础。
通过第一方和Meteor Lake晶圆、封装的媒体图片,以及封装过程的视频,我们可以确定英特尔在Meteor Lake上使用的小芯片的各种裸片尺寸。计算块由各种CPU核心块以及一些相关结构组成,只有大约40mm2。
其他die的尺寸约为174mm2、10mm2、95mm2和23mm2。这些芯片中的每一个确切用途都没有得到证实,但我们相信它们是用于IO、SoC和GPU的。我们将在本文后面的部分中深入探讨其中的每一个。首先探讨的是计算区块。
Locuza能够识别和注释芯片上的大多数结构,包括2 P Redwood Cove内核、8E Crestmont 内核以及连接到环形总线的最后一级缓存,这是我们要注意分析的不完善的地方。Meteor Lake图像是使用标准DLSR相机拍摄的。locza能够纠正一些因素,如偏离轴倾斜,但由于它限制了准确定,仍然是次优的。这些图像是在展厅而不是在实验室中完成的,因此不是最高分辨率。划线余量和其他一些因素也存在不确定性,让我们相信模具中结构的潜在误差范围在中高个位数范围内。并不是所有的结构和结构尺寸都能保证100%正确,但相信我们的物理布局设计是准确的,我们将准确地呈现测量的数据。
左边是当代Alder Lake的Golden Cove,右边是Meteor Lake的Redwood Cove。从高级试图来看,Redwood Cove似乎并没有显著改变,大多数子单元看起来与之前非常相似,没有改变位置或相对大小比例。在许多结构中,Redwood Cove主要是工艺技术的缩小,但仍然较多立即可见的架构变化,应该有助于IPC和性能。
例如,L1缓存看起来相对较大的原因是图像分析显示为40KB到45KB,所以我们认为它可能从当前的32KB增加到48KB。L2缓存似乎从1.25MB增长到了2MB。这种L2缓存的变化也将出现在英特尔今年晚些时候推出的Raptor Lake中。英特尔可能确实改进了分支预测逻辑,尽管缓冲区的大小大部分是相同的。这一结构基本上是每一代核心的调整点。可以期待更好的内存子系统,因为加载和存储缓冲区似乎也更大。乱序区域和分支预测单元之间的区域有几个块看起来比以前大。FPU设计看起来几乎相同,而AVX512基于指令的各种软件指标似乎相对没有变化。FP和INT reg文件似乎也没有太大,因此我们预计条目大小不会大幅增加。最后,有几个块的布局重新设计,包括SRAM的放置,以在垂直方向占用更多的空间,而不是水平方向。我们需要第一方的架构讨论,以及来自像Chips and Cheese这样的网站的深入的微观基准测试,真正了解什么发生了变化。
区域比较是事情开始变得有争议的地方。如图所示,整个核心的总面积减少了约25.17%,其密度提高了1.34倍。由于几个原因,各个区块的相对微缩率不同。一是两个内核之间存在明显的架构变化,因此总面积的比较不是直接比较。另一个原因是SRAM和逻辑的收缩量不相等,所以即使结构相同,我们也会根据块的组成得到不同的微缩倍数。所以我们能够根据来自Nvidia泄漏的规格和模拟来估计Nvidia下一代Lovelace架构的芯片尺寸时,将对此进行更详细的讨论。
最不受架构影响的纯工艺比较是Intel 4和Intel 7上256kb的L2缓存大小差异。我们的数据显示,面积减少了26.5%,也就是密度提高1.36倍。实现的收缩与英特尔的高密度SRAM单元的声明相当相似,尽管L2缓存可能使用更高性能的SRAM单元,并包括一些如辅助电路的逻辑。单个子单元面积减少最高的是INT Reg File,接近40%,1.65倍密度改进,因此我们将其设置为实现工艺密度提高的上限。这远低于声称的2倍收缩。
我们可以用于密度比较的计算块上的另一个主要结构是E核。左边是来自Alder Lake的 Gracemont,右边是来自Meteor Lake的Crestmont。从架构上看,除了L2缓存从2MB编程3MB之外,从这个比较中无法得出什么结论。奇怪的是,一些泄漏的信息表明Raptor Lake在E核心上移动到了4MB L2,这将使Meteor Lake的3MB处于一个奇怪的中间地带。Raptor Lake的这一细节尚未得到证实。
Crestmont在视觉上似乎没有对核心进行重大架构更改。面积减少约34%,密度提高1.52 倍证实了这一说法。共享L2缓存主要由SRAM组成,因此这个块的收缩更小。整个E核集群的面积减少了约29%,提高了1.4倍密度。拥有L2缓存的Golden Cove比没有共享L2的Gracemont大4.48倍。随着Meteor Lake的发展,这两个核的大小差距越来越大。Redwood Cove比Crestmont大5.1倍。英特尔的E核战略非常合理,可以最大化单位面积硅的性能。
CPU计算块只占Meteor Lake中硅元素总量的一小部分。只有CPU 区块位于Intel 4进程节点上。该基础图块被认为是一个使用更低成本和Foveros优化Intel 7节点变体的主动干预。
由于英特尔在Foveros上标记了它,这个基础区块块应该是活跃的,但英特尔让大部分基础图区块处于被动状态,因为活跃的元素似乎在其他的芯片上。我们可以分配给此图块的唯一功能似乎是供电和连接各种小芯片。该芯片上最大的芯片是“SoC”块。
我们相信SoC 区块是现有CPU芯片和PCH上IP的组合。使用Meteor Lake,没有PCH/芯片组。目前,PCH建立在14nm工艺节点上,作为降低额外IP成本的一种方式。Alder Lake 手机上的PCH为54mm2并包含IP,例如更多PCIe通道所需的IO、USB端口、SATA、英特尔管理引擎和Wi-Fi所需的数字逻辑,所有这些也将包含在SoC 区块中。此外,目前CPU上还有许多其他逻辑可以移到那里。Alder Lake P左侧的整个非核心区域(TB4、显示 PHY、PCIe PHY、数字控制逻辑、图像处理单元、GNA AI 加速器、系统代理和内存控制器)占用55.9平方毫米。该IP的大部分将移至SoC块,部分IP将移至10mm2。
总之,我们相信54mm2的14nm和约40mm2的非核心Intel 7硅将合并到SoC芯片。芯片组上会有一些冗余区域,但考虑到英特尔可能会增强其中一些IP块。所有这些IP都非常适合SoC 区块约94.9mm2的测量值,即使它位于稍旧的节点上。英特尔可能会再次使用14nm或16nm级节点,但传言称他们可能会在此块上使用台积电N6节点。
对于10mm2; IO 区块,我们也听到了关于Uncore IP位于此处的相互矛盾的传闻。一些业内人士建议将 Thunderbolt 4 和显示引擎移至此处,而其他人则建议将内存控制器设在此处,这两种选择都是可能的。4x Thunderbolt 端口,显示引擎在Alder Lake P上约为20mm2。Alder Lake P支持DDR4、DDR5、LPDD4x 和 LPDDR5,并使用16.7mm2;,对于内存控制器,其中I/O PHY +互连分为约6.8mm2;和9.9mm2。
这些IP块中的任何一个都可以紧密地安装在10mm2; I/O块中,但先进的封装显著提高了IO 密度,IP优化的工艺节点可以解决这个问题。此外,英特尔可能会放弃对DDR4和LPDDR4x的支持,也会节省一些空间。Alder Lake M有2个Thunderbolt端口,而Alder Lake P实测有4个。英特尔可以在Meteor Lake M上保留2个Thunderbolt端口,并在Meteor Lake P上减少到2个Thunderbolt端口。据传言说IO 区块使用了台积电工艺节点,台积电使用量出现如此大幅增长虽然令人难以置信,但也是可能的。
就GPU而言,英特尔表示Meteor Lake将拥有96EU到192EU的图形。我们相信此次展示的Meteor Lake包括64EU或96EU。GPU驱动代码显示的有效配置是64EU, 128EU和192EU,而Intel幻灯片显示的是96EU和192EU。在Alder Lake上,96EU和2个媒体引擎在Intel 7节点上总共是42.5mm2。随着英特尔DG2 Alchemist GPU中出现的各种架构更改,例如AV1编码支持、指令缓存从48KB增加到96KB、向量寄存器文件从28KB增加到 32KB、浮点专用问题端口,该区域可能会增长更多和整数ALU、RT硬件和1024位矩阵引擎。
乍一看,这似乎是一个很高的要求,但SemiAnalysis可以证实,英特尔正在使用台积电的N3B节点来制作Meteor Lake GPU块。通过这种收缩,64/96EU可以安装在约23mm2上。与台积电的N5相比,N3B的体积缩小了很多,台积电的N5已经比intel 7密集得多。有些人可能会质疑为什么台积电会将其最先进节点的晶圆分配给英特尔,但这是有道理的。我们还深入研究了该决定以及英特尔去年将在台积电制造的基础IP。
这是一个说明图,说明了英特尔可以做些什么来使GPU显著超出Foveros中介层允许的大小。正如我们在高级封装的深入研究中所解释的那样,Foveros Omni将允许对封装进行悬垂和其他增强,特别是在功率传输和设计灵活性方面。这将是与标准Foveros不同的封装流程,标准Foveros是晶圆上的芯片流程。对于Foveros Omni,这种流程似乎是不可能的。英特尔之前曾表示,Foveros Omni将于2023年投入生产。此外,他们还表示这是一款客户端移动产品。
就Meteor Lake的推出而言,这是有道理的。Meteor Lake整体将于2022年开始生产,但这并不意味着所有变体。OEM的朋友告诉我们,他们首先会获得GPU性能较低的移动 CPU,但今年晚些时候将会有更高GPU性能的移动CPU。
有了Foveros Omni,英特尔可以设计具有更多执行单元的更大GPU,并将其封装在同一个 Meteor Lake P封装中。该GPU将具有铜柱,直接从基板和模压来传输能量,以帮助结构的完整性。这种先进的封装方法使英特尔能够在有意义的地方销售更小、更便宜的GPU,但当他们想要扩展到更高的性能水平时,不必重新设计那么多的芯片。这将需要重新设计封装工艺流程、GPU块和基板,但这比重新设计一切的替代方案便宜得多。Foveros Omni也可能是一种扩展CPU核心数量的方法,但我们还没有听说过英特尔计划如何扩展到2P 核心和8E核心之外的任何消息。我们仅知道英特尔计划在移动设备和台式机上增加内核数量。
我们从英特尔的VisiON活动中捕获的最后一条信息与Meteor Lake的最终封装有关。我们拍了Meteor Lake底部的照片,我们可以从中收集到有趣的细节。
首先,M Type 4封装对于Meteor Lake来说要小得多。这可能是因为英特尔正在通过这种设计追求更小的外形尺寸。过去,英特尔曾表示Meteor Lake将从5W一路缩减至125W。目前,Alder Lake声称在Type 4封装中可以缩小到9W,但我们还没有看到任何采用这种配置的设备。
除了缩小X和Y尺寸之外,英特尔还非常注重压缩Z尺寸。由于这种高密度封装设计,最终可以在x86架构上实现5W到10W级的轻薄和高性能设备。与Alder Lake M相比,Meteor Lake M封装的焊盘数量要多得多。虽然这可能是由于更多的IO和保留/未使用,但这并不是唯一的解释。我们在Angstronomics的朋友向我们解释说,更薄、更密的封装需要更多的焊盘,因为它们用于巩固电源和接地的空间更小,这意味着需要更多专门的焊盘来为芯片的每个特定区域供电。更紧密的凸距也意味着更小的焊盘,其表面积更小,每个焊盘的功率传输能力更低,因此需要更多的焊盘。
总的来说,Meteor Lake可以说是一个有趣的建筑和设计。它标志着英特尔的许多首创,包括大批量Foveros,其中Lakefield和Ponte Veccio不算在内,使用intel 4工艺节点的EUV 以及台积电N3B工艺节点的实现。它标志着英特尔系统架构的重新设计,这将在未来的架构,如Arrow Lake中得到反映。正如我们与GPU讨论的那样,chiplet 区块架构帮助英特尔完全独立地验证和开发单独的IP,甚至根据产品定位和时间表切换IP。
Meteor Lake分析最具突破性的地方,或许是最令人失望的地方,是Intel 4似乎只比Intel 7减少了不到40%的面积,1.67倍密度提升。虽然SRAM、逻辑和模拟倾向于在进程节点之间以不同的速度收缩,但即使是我们可以识别为相同的最小子单元似乎也远远低于传统的完整节点理论缩放。正如我们之前展示的,256KB L2 SRAM块这样的SRAM重IP似乎只减少了26.5%的面积,1.36倍的密度提高。
基于Intel提交给VLSI的论文,Intel 4具有50nm栅极间距,30nm鳍片间距,40nm最小金属节距,16个金属层,在较低层增强的铜用于较低的线电阻,以及8个VT选项(4N+4P)。高密度SRAM单元的尺寸现在在Intel 4上是0.024um2,而在TSMC N5上是0.021um2,在Intel 7上是0.0312um2。即使根据官方的说法,英特尔在SRAM密度方面仍落后于台积电已有2年多历史的N5工艺技术。英特尔在其高密度SRAM单元上只实现了23.08%的面积减少,1.3倍密度提高。
SRAM的扩展问题也不是独立于Intel的。SRAM扩展性差的一个具体例子是台积电的N5工艺技术。台积电引述SRAM的比例为1.35倍,而纯逻辑为1.8倍。SRAM扩张的崩溃对行业产生了可怕的影响。尽管因特尔4看起来并没有完全缩小现实世界的密度,但它仍然领先于台积电和苹果从N7到N5所达到的1.49倍,以及台积电和英伟达从N7到N5所达到的1.5倍。因此,Intel的收缩似乎是SRAM扩展问题范式中的一个完整节点扩展。Intel 4进程节点的名字有点奇怪,尽管台积电N5的高密度SRAM实际上比Intel 4的密度提高了1.14倍。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。