图解第五代英特尔至强可扩展处理器

图片

四年五节点,一年出两代。在年初推出代号Sapphire Rapids(蓝宝石激流,SPR)的第四代英特尔至强可扩展处理器之后,仅隔11个月,代号Emerald Rapids(绿宝石激流,EMR)的第五代英特尔至强可扩展处理器,又向我们走来了。

然而业界并不慌乱,因为这两代Rapids共用Eagle Stream(EGS)平台,主板不用换,原则上只需要更新固件,为第四代英特尔至强可扩展处理器准备的服务器,就可以支持第五代英特尔至强可扩展处理器啦。

图片

五代至强可扩展,我有一Die您上眼

这种一个平台服务两代CPU的事情比较常见,远一些的有22nm的英特尔至强(Xeon)E5 v3和14nm的E5 v4,最大核心数从18个提高到22个(E7可达24个),TDP维持在145/160W(工作站版)。

然后14nm就开始限制更名为至强可扩展(Xeon Scalable)处理器的至强系列CPU的继续扩展:从第一、二代至强可扩展处理器,到第三代中先面市的四至八路版本(代号Cooper Lake-SP),基本没超出单die(晶片)提供最多28个核心的范畴,说是原地踏步也不为过。

图片

第五代英特尔至强可扩展处理器与第四代都采用Intel 7制程,即“四年五个制程节点”计划中的第一个制程节点。我们在英特尔公司的Jones Farm会议中心学习第五代英特尔至强可扩展处理器相关知识的时候,CEO帕特·基辛格(Pat Gelsinger)突然现身,为即将发布的新CPU站台。

大领导犯不上给一款疑似“摸鱼”的产品背书,与SPR相比,EMR有几处明显的改进,集中在XCC(eXtreme Core Count,最多核or极多核)版本上,体现了大英打磨Intel 7制程的成效。

图片

英特尔首席执行官帕特·基辛格手举第五代英特尔至强可扩展处理器,旁边的女士是英特尔公司副总裁、英特尔至强产品和解决方案事业部总经理Lisa Spelman。注意大屏幕两侧分成左右两部分的EMR-XCC

第四代英特尔至强可扩展处理器开始采用业界流行的Chiplet(芯粒)技术,(XCC版本)由4片(tile)对等的die通过10个EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)连为一体,提供最多60个核心、112.5MB末级缓存(Last Level Cache,LLC),即每核心1.875MB的L3 Cache。实际上,只有支持八路(8S)配置的至强铂金8490H达到60个核心,“主流”的最高核心数为56个。

更简洁,更强大

相比之下,第五代英特尔至强可扩展处理器(XCC版本),die变少了,也变强了。

一方面,EMR-XCC把die的数量从SPR-XCC的4个减半为2个,仍然是互为镜像的方式,但只需要3个EMIB,可以大大简化封装环节的工作量。

图片

左侧SPR-XCC的EMIB连接,有点过于抽象

从效果图来看,EMR-XCC的每个die上,核心/缓存复合体与DDR5内存控制器组成7×5的2D-Mesh网格,减去“腰部”两侧各占1格的DDR5控制器,理论上可以提供33个核心,2个die就是66个。第五代英特尔至强可扩展处理器最多提供64个核心,即每个die少启用1个核心,毕竟单die的核心数比上一代多了一倍多,“我全都要”对良率的挑战实在是有点大。

有舍有得,从目前公开的SKU来看,第五代英特尔至强可扩展处理器有3款64核心,与第四代英特尔至强可扩展处理器和至强CPU Max系列(前者的HBM版本)的60核加56核的数量持平。

图片

另一方面,特别体现Intel 7优化功力的,当属EMR-XCC的L3 Cache(LLC)容量,从第四代英特尔至强可扩展处理器的1.875MB,暴涨至5MB,第五代英特尔至强可扩展处理器的最大LLC容量也来到320MB,都有接近三倍的提升。

内存:提频与扩展

内存子系统的升级贯穿第五代英特尔至强可扩展处理器全系,以缓解核心数增长带来的内存带宽压力(内存墙)。支持的DDR5内存最高频率从第四代英特尔至强可扩展处理器的4800MHz提高到5600MHz,幅度超过16%,略胜于核心数的增加;最低档也从4000MHz提高到4400MHz,即10%的幅度。

图片

增加内存通道的数量是提高内存带宽的另一种手段,譬如采用Intel 3制程的下一代至强处理器将把每CPU的内存通道数扩充到12个。无论是当前的主板布局,还是从兼容第四代英特尔至强可扩展处理器的角度,都不允许第五代英特尔至强可扩展处理器这样做,但是呢,要变通,总能找到办法。

我们知道,第四代英特尔至强可扩展处理器支持CXL(Computer Express Link)1.1规范的Type 1和Type 2设备,第五代英特尔至强可扩展处理器则加入了Type 3内存支持,允许单层或两层内存配置:

  • 两层内存支持聚焦容量扩展,第一层(Tier 1)是内存控制器下辖的8个DDR内存通道,第二层(Tier 2)是跨2个CXL Type 3设备提供的4个CXL内存通道,应用场景如提高内存数据库(如Redis)的TPS;

  • 单层内存支持就是把上面两层合并,提供12通道DDR + CXL交错传输,容量和带宽双丰收。

图片

当然,构筑在PCIe 5.0之上的4个CXL内存通道,带宽比“货真价实”的4个DDR内存通道,相差得有一个数量级,更像凑数的。

I/O、互连,加速、节能

第五代英特尔至强可扩展处理器的PCIe 5.0通道数还是80个,这样主板也不用更改。但是XCC版本的die上留给PCIe控制器“浪费”的硅片面积似有减少,更趋近于MCC版本,代价是112个PCIe 5.0的至强W处理器可能不会有了。

图片

EMR-XCC的四个角各有1个UPI和1组加速器,每个die上的UPI和2组加速器之间,是占据3个网格宽度的PCIe 5.0控制器,共6个

用于CPU之间互连的UPI 2.0,速率从第四代英特尔至强可扩展处理器的16GT/s提升到20GT/s,幅度达25%。但是,第五代英特尔至强可扩展处理器只支持双路(2S)互连,不支持四路(4S)或八路(上一代中后缀为H的SKU),带HBM内存的至强Max系列也暂时没有更新——虽然其高内存带宽在大语言模型(LLM)的推理场景很有价值。

从上述迹象来看,第五代英特尔至强可扩展处理器不会完全替代第四代英特尔至强可扩展处理器,两者会有相当程度的并存。

虽然最大核心数和LLC有不同程度的增长,第五代英特尔至强可扩展处理器标称的TDP(Thermal Design Power,热设计功率)仍把持在350W(瓦)这条线,只有一款液冷通用产品(8593Q)超出10%。根据英特尔提供的资料,第五代英特尔至强可扩展处理器在较低利用率(如30~40%)下的能耗得到优化,可以降低用户的供电和制冷成本。

图片

需要注意的是,EMR最重大的提升——LLC容量,只限于XCC版本,核心数不超过32个的MCC(Medium Core Count,中等核数)版本,可能因为仍是单晶片(Single Monolithic Die)架构的缘故,看起来只做了微调,升级体现在核数、频率、TDP的小幅增加,或者DDR5内存频率上一两个台阶(以400MHz为单位)。

在不超过20个核心的领域,还有所谓EE LCC的SKU。LCC即Low Core Count(低核数),EE代表Edge Enhanced(边缘增强)。第四代英特尔至强可扩展处理器已低调推出过EE LCC和EE MCC的SKU,后缀以N或NE结尾,AMX(Advanced Matrix Extensions,高级矩阵扩展)支持并不普遍,标配加速器有DSA和专用的vRAN加速设备各一。

外围I/O配置上,这两代至强可扩展处理器在XCC和MCC上的规律应该还是相同的,譬如:XCC可以有4个UPI(分布在四角),MCC的UPI不超过3个。

图片

第四代英特尔至强可扩展处理器的加速器,得到了继承

我们知道,第四代英特尔至强可扩展处理器引入了4种外挂的加速器,分别是:

  • DSA:数据流加速器(Data Streaming Accelerator),优化流数据移动和转换操作;

  • QAT:QuickAssist技术,用于加速加解密和数据压缩解压缩;

  • DLB:动态负载均衡器(Dynamic Load Balancer),用于网络功能;

  • IAA:存内分析加速器(In-Memory Analytics Accelerator),用于高级数据分析。

这4种外挂加速器,可以理解为集成在CPU上的PCIe加速卡。每个公开的SKU都至少开启1个DSA设备,通用(General Purpose)型SKU最后以 + 号结尾的有DSA、QAT、DLB和IAA设备各一。除最低端的3508U之外,都支持Intel On Demand技术以启用更多加速器,区别在于,XCC版本每种加速器都可以增至4个,MCC版本就只有QAT和DLB能增加到2个,DSA和IAA最多各1个。

图片

在快进到具体SKU解读之前,最后重申一下基本规则,即SKU的第二位数字5代表第五代英特尔至强可扩展处理器,第一位数字代表所处等级:

  • Platinum(铂金)→ 8

  • Gold(金)→ 和 5

  • Silver(银)→ 4

  • Bronze(铜)→ 3

如前所述,第五代英特尔至强可扩展处理器最多支持双路,所以没有后缀为H的4S/8S版本,也没有9开头的HBM衍生版本(Xeon Max),目前公开的32个SKU分为8类,主要靠后缀识别。

只有4位数字,以及 Y 和/或 + 结尾的是通用型,占总数近六成,又细分为性能和主流两类。

(注:表中列出两代CPU的相关型号以便对比,第五代英特尔至强可扩展处理器及其参数突出显示,Long life一栏只显示第五代的情况)

2S性能通用

图片

前一代在这个组的旗舰是(Platinum) 8480+,从SKU编号上看平替它的应该是8580,两者在发布时的建议价格(初始价格)完全相同,本组存在这种情况的还有8562Y+、6542Y、6544Y和6526Y。

8580的核心数比8480+多了4个,LLC容量接近三倍,DDR5内存频率高出800MHz,CPU运行频率基本相当,这种情况在XCC中很有代表性,8570和8568Y+甚至在运行频率上还小有优势。但是8580不带 +,意味着只有1个DSA开启,全面超越的任务由64核的8592+完成,其LLC容量甚至略超8480+的三倍。

从8562Y+向下,进入MCC区间,核心数和LLC容量基本与前代相当,优势主要体现在DDR5内存通道的频率上,6548Y+、6542Y、6526Y和5515+以TDP的小幅上升换取了更高的CPU运行频率。

2S主流通用

图片

扛旗的8558核心数有48个不算少,但LLC容量掉到260MB,DDR5频率也非顶级。

32核的(Gold) 6530突然爆种,LLC容量达到160MB,接近6430的三倍,如果后者不是XCC的血统,真要怀疑60MB前面多写了个1。

本组其他选手都在MCC区间,6538Y+、6530和4510在初始定价上有“平替”前任的意思,还多了个8核的(Silver) 4509Y。

液冷通用(-Q)

图片

8593Q可称真旗舰,基频与全核睿频都高于8592+,TDP也来到385W,反正有液冷加持。

6558Q在主要参数和初始定价上,都像奔着平替6458Q来的。

单路通用(-U)

图片

8558U拉高本组上限,但在8558中算弱的,从CPU频率到内存频率,乃至TDP,都有所下降。

5512U的核心数、LLC容量和DDR5内存频率,都比5412U有所提升,TDP则持平。

(Bronze) 3508U在主要参数和初始定价上,也像奔着平替3408U来的。

5G/网络优化(-N)

图片

8571N的LLC容量是本组核心数相同两款前辈的三倍还多,IAA也拉满,运行频率明显提高,而TDP并没有增长。

6538N与6438N初始定价相同,频率更高。

云优化 IaaS(-P)/ SaaS(-V)

图片

8592V的基频比8592+略高,但UPI少1个,DDR5内存频率和TDP略低。

8558P与8458P初始定价相同,核心数和频率都提高了,最关键是LLC容量有三倍多,很有诱惑力的样子。

媒体专用(-M)的SKU在这一代消失了。

存储与超融合(HCI)优化(-S)

图片

6554S与6454S都是QAT、DSA、DLB全开,初始定价相同,新品睿频更高,三倍的LLC容量,TDP不变。

长使用寿命(IoT)通用(-T)

图片

为边缘应用优化,目前只有4510T一款产品。不过从上面的那些表格来看,有小一半的SKU具备“长寿”能力的样子。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/411767.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机硬件】2、指令系统、存储系统和缓存

文章目录 指令系统计算机指令的组成计算机指令执行过程指令的寻址方式(怎么样找到操作数?)1、顺序寻址2、跳跃寻址 指令操作数的寻址方式(怎么样找到操作数?)1、立即寻址方式2、直接寻址方式3、间接寻址方式…

mac PyCharm 上传文件到远程服务器+远程服务器下载到本地

1 部署配置 选择SFTP name:test6 输入ssh账号和密码。保存密码和30s心跳。 2 目录映射 Local path(本地mac机器):/Users/clevercode/PycharmProjects/test6 Root path(远程服务机器):/home/…

从前端角度浅谈性能 | 京东物流技术团队(转载)

1 前言 自网站诞生以来,页面白屏时间、用户交互的响应速度等一直都是开发者关心的问题,这直接影响了一个网站能否为用户的浏览提供舒适的服务,而这种舒适度,直接关系着对用户的吸引力,毕竟谁都不能忍受一个页面长达10秒…

坚持刷题 | 二叉树的层序遍历

坚持刷题,老年痴呆追不上我,今天刷:二叉树的层序遍历 题目 102二叉树的层序遍历 考察点 数据结构基础: 能够正确地使用二叉树数据结构,并了解二叉树的基本性质。编程基础: 能够熟练使用Java编程语言&a…

数据结构--排序

参考【算法】排序算法之希尔排序 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/122632213 1. 排序的定义 2. 插入排序 2.1 直接插入排序 在插入第i&#xff08;i>1)个记录时&#xff0c;前面的i-1个记录已经排好序 void insertSort(int r[],int n) {for(int i2;i<…

循环依赖和三级缓存

循环依赖&#xff1a; 是指一个或多个Bean实例之间存在直接或简介的依赖关系&#xff0c;这种依赖关系构成了环形调用(类与类之间的依赖关系形成了闭环)。 循环依赖的表现形式 eg1: 自己依赖自己的直接依赖 eg2: 两个对象之间的直接依赖 eg3: 多个对象之间的间接依赖 Spirng 框…

Notepad++运行C语言输出乱码

方法一&#xff1a;编码-编码字符集-中文-GB2312 这时原程序中文会变成乱码&#xff0c;我是重新输入中文 重新编译执行即可 缺陷&#xff1a;重开一个程序有中文还是会显示乱码&#xff0c;需要重新设置编码&#xff0c;比较麻烦 方法二&#xff1a;设置-首选项-新建-右侧编…

IntelliJ IDEA 拉取gitlab项目

一、准备好Gitlab服务器及项目 http://192.168.31.104/root/com.saas.swaggerdemogit 二、打开 IntelliJ IDEA安装插件 打开GitLab上的项目&#xff0c;输入项目地址 http://192.168.31.104/root/com.saas.swaggerdemogit 弹出输入登录用户名密码&#xff0c;完成。 操作Comm…

Azure Machine Learning - 聊天机器人构建

目录 聊天机器人架构概述消耗成本环境准备打开开发环境部署和运行将聊天应用部署到 Azure使用聊天应用从 PDF 文件获取答案使用聊天应用设置更改答复行为 本文介绍如何部署和运行适用于 Python 的企业聊天应用示例。 此示例使用 Python、Azure OpenAI 服务和 Azure AI 搜索中的…

5D动感影院新奇体验丰富环境特效7D互动影院

5D动感影院太火啦&#xff01;凭借真实互动感、全视景高清屏幕、立体环绕音效、D打造新颖沉浸式观影体验&#xff0c;成为年轻人/家长/小朋友的新晋打卡聚集地&#xff0c;时刻上演着精彩绝伦的视觉盛宴&#xff01; 1、5D动感影院【硬件组成】&#xff1a;动感平台、金属银幕、…

【LabVIEW FPGA入门】FPGA中的数学运算

数值控件选板上的大部分数学函数都支持整数或定点数据类型&#xff0c;但是需要请注意&#xff0c;避免使用乘法、除法、倒数、平方根等函数&#xff0c;此类函数比较占用FPGA资源&#xff0c;且如果使用的是定点数据或单精度浮点数据仅适用于FPGA终端。 1.整数运算 支持的数…

设计模式—— 单例设计模式

单例设计模式 什么是单例模式 单例模式是一种对象创建型模式&#xff0c;使用单例模式&#xff0c;可以保证为一个类只生成唯一的实例对象。也就是说&#xff0c;在整个程序空间中&#xff0c;该类只存在一个实例对象。 为什么使用单例模式 在应用系统开发中&#xff0c;我…