今年3月底的一次研讨会上,intel公布了2023-2025年至强平台路线图,首次公布了未来四款重磅新品的代号、工艺和初步设计。
hot chips 2023大会上,intel详细介绍了其中的三款新至强,包括诸多技术细节,以及性能水平。
首先是emerald rapids,现有第四代可扩展至强(sapphire rapids)的继任者,命名为第五代可扩展至强。
它在工艺、架构、接口等各方面都保持不变,相当于一个升级增强版,比如频率更高之类的,但细节暂未公开,预计最多增加到64个核心。
emerald rapids目前已经向客户送样,将在第四季度按期发布上市。
emerald rapids晶圆
emerald rapids样品
明年才是重头戏,并且首次分两步走,一个是上半年的纯小核sierra forest,一个是稍后跟进的纯大核granite rapids。
之所以会分两条腿走路,intel表示,原因主要是市场和客户需求的变化。
一方面,hpc高性能计算、ai人工智能都属于计算敏感型应用,依然需要强大的单核、多核性能。
另一方面,更高的核心密度、更高的能效的需求越来越高,传统的高性能核心难以满足,而且容易造成浪费。
事实上,amd这一代霄龙处理器,就是走的这种路线,既有高性能的zen4架构(最多96核心),也有高密度高能效的zen4c架构(最多128核心)。
sierra forest、granite rapids新至强都采用了模块化soc设计,一是包含处理器核心、内存的计算模块,二是负责输入输出的io模块,彼此分离,再结合emib封装、网格互连接口(mesh fabric interface),可以灵活组合、扩展。
基本单元是核心模块(core tile),包括核心、二级缓存、三级缓存、网格互连接口等部分。
值得一提的是,e核、p核之间共享ip、固件、操作系统、堆栈,开发利用更为简洁高效。
新至强支持最多12通道的ddr5内存,包括新的mcr dimm规格,通过多路合并获得更高带宽,还有新的intel flat memory技术,可在ddr5、cxl之间实现硬件管理数据转移,使得内存总容量对软件可见。
同时支持最多136条pcie 5.0/cxl 2.0通道,最多6条upi总线。
e核是全新设计的架构,前端、乱序引擎、标量引擎、矢量引擎、内存子系统等规格模块都针对能效进行特别优化,同时与p核共享硬件平台、软件堆栈,还会用上先进的intel 3制造工艺。
每个e核具备64kb一级指令缓存,每2个或4个e核组成一个模块(tile),共享最多4mb二级缓存,共享频率和电压域,共享网格互连接口,然后所有e核共享三级缓存,平均每4个分配到3mb。
软件功能支持bf16、fp16数据格式与转换,支持avx ai加速等各种现代指令集,以及ras可靠性、安全特性、虚拟化。
sierra forest最多144核心,支持单路、双路,也就是单系统最多288核心288线程,功耗则低至200w。
对比现有四代至强,它的核心密度增加最多2.5倍,能效则提升最多2.4倍。
p核则是基于成熟架构,针对单核性能优化并提升能效,具备单独的电源管理控制器,重点改进分支预测、未命中恢复,同样是intel 3制造工艺。
每个p核具备64kb 16路一级指令缓存,支持增强型amx指令、新的fp16浮点指令,号称混合ai负载性能提升2-3倍。
granite rapids则支持单路、双路、四路、八路,但核心数量暂未公开。
未来,p核、e核至强将分别继续演化,其中e核的下一代代号clearwater forest,有望用上intel 18a工艺,预计最早2025年面世。