
开始:半导体行业不雅察开云体育(中国)官方网站 要是您需要一个能够复旧数十 TB 内存、数十个 PCI-Express 外围诱骗插槽、数千个径直鸠集的存储诱骗的大型、强盛的盒子,通盘这些都将输入到数百个不错高出该内存占用空间并具有多数带宽的内核中,那么您莫得太多聘用。 这即是为什么 IBM 仍然领有基于其 Power 系列 RISC 处理器的 Power Systems 做事器业务的原因之一。该系列处理器复旧 IBM 自主研发的 Unix 变体、其独特且备受宝贵的 IBM i(夙昔称为 OS/

开始:半导体行业不雅察开云体育(中国)官方网站
要是您需要一个能够复旧数十 TB 内存、数十个 PCI-Express 外围诱骗插槽、数千个径直鸠集的存储诱骗的大型、强盛的盒子,通盘这些都将输入到数百个不错高出该内存占用空间并具有多数带宽的内核中,那么您莫得太多聘用。
这即是为什么 IBM 仍然领有基于其 Power 系列 RISC 处理器的 Power Systems 做事器业务的原因之一。该系列处理器复旧 IBM 自主研发的 Unix 变体、其独特且备受宝贵的 IBM i(夙昔称为 OS/400)以及 Linux 操作系统。而这款“大型机”的盈利智商,以及需要大型 NUMA 机器的客户对这些机器的宽裕依赖,使其能够复旧海量事务型数据库处理系统过头左近应用姿首,恰是蓝色巨东谈主仍然有智商投资 Power 处理器的原因。
因此,Power11 处理器于上周推出,并将于 7 月 25 日脱手在一系列初学级、中端和企业级做事器上发售。
从某种进度上来说,Power11 芯片是 2021 年 9 月初次亮相的 Power10 芯片的深度分类。
Power10芯片资格了一段沉重时间,芯片代工协作伙伴GlobalFoundries先后取消了10纳米和7纳米制造工艺。相同的工艺转型对英特尔来说亦然一次史诗级的失败,而制造工艺的一次又一次推迟,让AMD有契机凭借其兼容的Epycs芯片卓越Xeon X86做事器芯片,AMD的商场份额也从此束缚增长。
格芯于 2014 年 10 月收购了 IBM 微电子公司,并认真其时正在进行的蓝色巨东谈主 14 纳米工艺的产物化。据咱们所知,GlobalFoundries 禁受 14 纳米工艺蚀刻的 Power9 芯片上市晚了节略一年,而 IBM 花了一整年的时辰才在 2018 年提高产量。(首批 Power9 芯片于 2017 年底委派,鉴识用于橡树岭国度践诺室的“Summit”超等筹备机和劳伦斯利弗莫尔国度践诺室的“Sierra”超等筹备机,并通过 NVLink 互连配对,与 Nvidia“Volta”V100 GPU 加快器分享内存。照旧应该有一个 Power9' - 这是一个“素数”瑰丽,用于暗示低于“+”的更新,频频意味着工艺疏漏,况兼频频意味着 Power 处理器系列中插槽中的芯片数目翻倍 - 但这从未发生过。(Power8' 是将 Power8 芯片与 NVLink 端口考究耦合到 Nvidia“Pascal”P100 GPU 加快器的检修台。)
正如咱们在 2021 年 6 月 IBM 告状 GlobalFoundries 爽约时所谋划的那样, Power10 的原始规划是转向 10 纳米工艺和新的 Power 微架构,使中枢数目比 Power9 翻一番。这意味着 24 个中枢,每个中枢 8 个线程(IBM 称之为 SMT8),或者 48 个中枢,每个中枢 4 个线程(IBM 称之为 SMT4)。该芯片规划于 2020 年上市,配备更快的 OpenCAPI 和 NVLink 径直 I/O 以及内存分享端口。后续的 Power11 规划在此之后几年推出,约略禁受 7 纳米工艺,况兼其中枢中详情会配备更宽的矢量处理引擎。
在此历程中,GlobalFoundries 示知 IBM,由于 10 纳米工艺的蔓延,它将径直跳到 7 纳米,IBM 不得不从头盘算 Power10 的盘算。在 7 纳米节点,咱们所看到的 IBM 道路图标明,蓝色巨东谈主将使用 GlobalFoundries 的 7 纳米工艺,提供 60 个 SMT4 中枢和 30 个 SMT8 中枢的 Power10 变体,两种变体统统 240 个线程。2018 年 8 月,GlobalFoundries 加大了双管皆下研发 7 纳米工艺的力度(一种使用圭臬浸没式光刻技能,另一种使用更激昂的极紫外 (EUV) 技能),这让蓝色巨东谈主不得不为其 Power 和 System z 大型机 CPU 寻找代工场。
IBM 聘用了三星,后者出产我方的智高手机芯片,况兼尽头但愿在 7 纳米及更小的节点上为更大的筹备引擎打造高性能工艺。IBM 是学习该工艺的理思运行客户,因为它在芯片诱骗和制造方面领特等十年的专科警戒。
手脚向三星转型的一部分,IBM 入辖下手校正 Power 的请示集和架构,并在 Power 盘算中已有的整数中枢和浮点向量中枢中加多了矩阵数学单位。咱们以为,要是不是因为制造问题导致 Power10 和 Power11 的发布蔓延,这项校原本应在 Power11 中竣事。新冠疫情也为 IBM 提供了掩护,使其能够邋遢不迫地诱骗 Power10,并作念好它。从这个真义上讲,委派的 Power10 恰是咱们思象中的 Power11 的神志。因此,要是详细地交融,Power10 实质上即是 Power11,而 Power11 实质上是 Power11+。
Power10 和 Power11 芯片出厂时都领有 16 个中枢,晶体管数目相同为 180 亿;区别在于中枢的使用阵势和时钟频率。Power10 芯片相同领有 128 MB 三级缓存,蚀刻在两个缓存体中,SMT8 中枢环绕其外,每个中枢配备 2 MB 二级缓存。最大的区别在于,Power11 的通盘 16 个中枢都不错激活运行操作系统,而 Power10 最多只可使用 15 个中枢,因为在三星率先的 7 纳米工艺中,至少有一个中枢会失效。而且说明 Power10 的 SKU 来看,似乎还有不少中枢失效了。(英特尔和 AMD X86 做事器处理器亦然如斯,SKU 堆栈的内核数目因此会缩减。)
借助 Power11,关于具有一或两个插槽的所谓“横向膨大”系统,IBM 领有具有四个、八个、十个、十二个或十五个可用内核的 Power11 芯片,并通过单芯片模块(称为 SCM)和双芯片模块(称为 DCM)来应用这些内核。DCM 的频率限制为 2.4 GHz 至 4.15 GHz,SCM 的频率限制为 3 GHz 至 4.2 GHz。DCM 还有一种格外变体,其中插槽中的第二个芯片的通盘内核均已停用(成心或由于良率低),但芯片的通盘 I/O 功能均可使用。因此,这种初学级 SCM(IBM 称之为 eSCM)在一个芯片上有四个或十个步履内核,而第二个芯片上莫得步履内核,但 I/O 智商却是预期的两倍。
咱们看到的一些文档中,有一些表格线路 Power11 芯片领有 300 亿个晶体管,时钟频率限制为 3.8 GHz 至 4.4 GHz,芯单方面积为 654 平方毫米,而Power10 芯单方面积为 602 平方毫米,时钟频率限制为 3.75 GHz 至 4.15 GHz。咱们不知谈这些表格中更高的晶体管数目和芯单方面积从何而来,并已揣测 IBM 寻求解析。据咱们所知,Power10 和 Power11 芯片的芯片尺寸和晶体管数目疏导;但这些晶体管中可用的数目详情发生了变化。
在体型远大、性能倒霉的 Power E1180 做事器上,该机器与 2021 年发货的 Power E1080 险些宽裕疏导。一个很大的区别是,Power E1180 默出嫁备 DDR5 内存,这是 Power E1080 末期的一个升级选项,而 Power E1080 率先配备的是 DDR4 内存。购买了 E1080 并耗尽多数资金购买 DDR4 内存的客户不错将其处理器升级到 Power11,但保留 DDR4 内存,这么不错通过捐躯一些性能规格来检朴一大笔钱。IBM 之是以能够作念到这少量,是因为它通过 OpenCAPI 内存接口 (OMI) 竣事了与其内存的相反化接口,DDR4 或 DDR5 契约是在内存芯片上竣事的,而不是在 Power10 或 Power11 芯片上的截止器上竣事的。
这是竣当事人存储器的一种灵巧次序,业界不错从 IBM 在 Power Systems 上使用 OMI 存储器的作念法中学到一些东西。
Power11 芯片的外不雅如下,它看起来应该和 Power10 一样熟谙:
底下是 Power11 SCM 各通谈的框图,它与 Power10 SCM 疏导,但进行了一些封装养息以提高动力效用:
Power11 芯片的 SCM 模块顶部有 72 个 I/O 通谈,可复旧单节点内 CPU 插槽之间的 X-bus 互连,以及跨多节点的 A-bus NUMA 链路。当前尚不明晰 Power11 中 X-bus 链路的运行速率,但咱们推断是 50 Gb/秒;咱们知谈 A-bus 链路的运行速率是 32 Gb/秒。
Power E1180 每个节点有四个插槽,单个分享内存系统包含四个节点,最多可提供 256 个 4.4 GHz 中枢,以及高达 64 TB 的主内存。谈判到内存本钱,咱们预测实质应用中的大型 Power E1180 机器(即使是运行 SAP HANA 内存数据库过头应用姿首的机器)的内存容量最高也唯有 16 TB,偶尔以致会达到 32 TB。除非真的有买卖用途,不然内存本钱确切太高,不值得浮滥。
这是一个尽头大的机器,况兼 I/O 和内存与筹备智商竣事了细密的均衡。AMD 系统最多可在一个 NUMA 集群中竖立两个 CPU,其中配备Zen 5 中枢的正常版“Turin” Epyc 9005领有 128 个中枢和 256 个线程,运行频率为 2.7 GHz;而配备“Turin” Zen 5c 的变体则领有 128 个中枢和 256 个线程,运行频率为 2.25 GHz,通过将芯片上使用的 L3 缓存大小减半,中枢数目翻倍。当今,假定这台机器运行全速 6.4 GHz DDR5 内存,不错提供 1.5 TB/秒的内存带宽。要是使用 64 GB DDR5 DIMM(咱们以为由于价钱原因这是一个实质的上限),这台机器将领有 3 TB 的内存。
IBM 大幅缩短了 DDR5 内存的速率,并在 Power11 芯片上装置了 16 个内存截止器,从而使内存运行温度更低、更可靠,从而从 16 路 Power11 做事器中赢得 12.8 TB/秒的内存,并使用 64 GB 差分 DIMM 在 16 个插槽上赢得 16 TB 的内存。(它有 32 GB、64 GB、128 GB 和 256 GB 的 D-DIMM 可供聘用。)
一台使用英特尔“Granite Rapids”至强 6 处理器的八路做事器,每个插槽最多可容纳 86 个中枢,或在通盘这个词 NUMA 机器上最多可容纳 688 个中枢,但这些中枢的运行频率仅为 2 GHz。要是使用 64 GB DDR5 DIMM 内存,运行频率为 6.4 GHz,那么这台英特尔至强 6 系统将为机器中的通盘内存截止器提供 8 TB 的容量和 5.5 TB 的带宽。
多年来,IBM 一直在污秽内存、I/O 和加快器之间的规模。早在 2018 年 8 月,咱们就展示了IBM 不错用 Power9 处理器竣事的一些道理的选项。在 Power 做事器中,联系于内存带宽,调低中枢数目很容易——只需购买带有多数无效中枢的处理器模块即可。您不错说明 DIMM 的容量来养息系统的内存容量。带宽即是带宽。您不错通过填充内存插槽来加多带宽,也不错通过不填充内存插槽来减少带宽。
然而,要是联系于内存容量或内存带宽而言,需要更多的筹备智商,那么加多中枢数目就会很不毛。因此,咱们提出 IBM 创建一种称为膨大 DCM(xDCM)的东西,它将系统上的部分 OMI 内存端口和 OpenCAPI 端口转念为 X-bus 和 A-bus NUMA 链路,从而通过将 Power E1180 节点膨大到四路 NUMA 以上来提高高端 Power11 机器的可膨大性,或者通过在机箱中添加更多 NUMA 节点来提高系统可膨大性。咱们怀疑后者可能后果更好。
岂论若何,以下是基于 Power9、Power10 和 Power11 处理器的最近三代高端 Power Systems 机器的堆叠情况,以及表面上的 Power E1185 和 Power E1185X 的相比情况:
咱们不知谈这么的养息会有多激昂,但加多更多核情意味着 IBM 不错在机箱中添加更多造谣机,从而匡助将企业使命负载整合到大机箱中。
参考一语气
https://www.nextplatform.com/2025/07/16/the-worlds-most-powerful-server-embiggens-a-bit-with-power11/开云体育(中国)官方网站