所在位置: 首页 评测 Intel Xeon W9-3495X & Supermicro X13SRA-TF性能体验

Intel Xeon W9-3495X & Supermicro X13SRA-TF性能体验

2023年4月16日 09:39
阅读 12万6860
3

前言

  回想2017年,MSDT的主流产品是4C8T的I7-7700K,而同年问世的HEDT I9-7980XE问世时18C36T的超强规格成为了数框框的神器。
  时光流逝,到了2023年HEDT停留在第10代,规格依旧是18C36T,而MSDT已经进化到了13代酷睿的24C32T。且不说IPC已经已经不可同日而语,哪怕是曾经引以为傲的线程数也已经被MSDT追上,可以说HEDT失去了存在的意义,被并入WS级也成为了顺理成章的事情。
  那么融合了HEDT特点的全新Sapphire Rapid WS级产品会有怎样的体验呢? 01.JPG

Sapphire Rapid WS平台

Intel Xeon W

  今天我们的测试平台是这样的 011.png 此次Xeon W一共推出了两个系列的CPU,分别时24XX系列与34XX系列。Xeon W并没有像12和13代酷睿那样使用大小核异构设计,全部为大核P-Core。 IntelSapphireRapidsMCCDieDiagram.jpg   其中24XX系列为MCC DIE,DIE原生最大34核心(实际最高型号为24核心),4通道内存。总共6组PCI-E控制器,其中一组固定与PCH通过DMI 4.0 X8相连,另外5组可自由使用。但是实际在Xeon W24XX中,Intel只给我们开放了4组,每组支持16通道 GEN5,总计164=64通道。完整的80通道要到同样基于Sapphire Rapids的第四代Scalable Xeon处理器中才完全开放。 IntelSapphireRapidsXCCDieDiagram.jpg   其中34XX系列为XCC DIE,DIE原生最大60核心(实际旗舰型号为56核心),拥有8通道内存。有8组PCI-E控制器,其中一组固定与PCH通过DMI 4.0 X8相连,另外7组可自由配置,每组支持16通道 GEN5,总计167=112通道。上面那个图是第四代Scalable Xeon处理器的,为了与MCC规格保持一致故而关闭了两组共32通道,故而会有两组显示Not Connect。而Xeon W34XX拥有完整的112通道。
  这一代Xeon W的命名与桌面版酷睿类似使用W9、W7、W5、W3分别对应旗舰、高端、主流、入门等不同等级。后缀为X的不锁倍频,也就是我们俗称的可超频。这次我们收到的便是目前Sapphire Rapids XEON-W的最高端型号W9-3495X,规格为56C112T,TDP350W。

Supermicro X13SRA-TF

  关于超微的X13SRA主板,我们在先前的文章中已经有过比较详细的介绍了(超微Super Micro X13SRA-TF评测 ),相同的我就不再重复,这里简单补充一些先前没有提到的内容。 02.png   上面那个是X13SRA-TF的主板架构图。虽然有8条内存插槽,但实际最大为4通道,如果插满8条内存便是2DPC(2 DIMMs PER CHANNEL),此时内存会降频到4400MT/S。如果设计为8通道,那么安装W24XX的CPU会导致半数的内存插槽不可用,也就是内存最大容量会减半。对于大多数工作站用户来说,内存容量的重要性要远高于速率,故而为了可用插槽数量最大化,设计为4通道也无可厚非。
  除了我们能在主板上看到的3条PCI-E X16和两条M.2插槽以外,还有后置的USB TYPE C以及AQC113万兆网卡直通CPU,其余接口接驳PCH。万兆网卡的直通对于一部分网络要求较高的应用场景有一定的帮助。
  很明显可以看得出来X13SRA-TF是一款针对64通道的W24XX系列CPU设计的,同时对W34XX提供兼容,如果想完整体验112通道的W34XX的话,那么超微还有一款更高端的X13SWA-TF可供选择

电源管理

  同样的Intel 7制程工艺,8P+16E的 13900K功耗可以达到300W+,而高达56P的3495X也就350W,规格相差如此巨大,而功耗为何却能不相上下呢?这就不得不提到现代CPU的电源管理了。 04.png   现在的CPU是越来越智能了,温度墙、功耗墙、电流墙,CPU在多重维度框架的控制下会尽可能的达到最佳性能。电源管理不仅仅是CPU和主板的工作,操作系统同样承担着重要的作用。Windows目前的电源管理方案已经很成熟,有多种情景模式可供选择。 03.png   在我们最常用的平衡模式下,空载的3495X的功耗仅不到50W,和13900K的空载功耗差不多。但如此庞大规模的CPU想实现这个功耗是要付出一定代价的,此时3495X的全部核心频率会被压制在800MHz,虽然有负载时会重新将主频激活,但这个激活过程是一定时延的,这样会导致我们平衡档位使用时会有明显的卡顿,这一点在启动程序时尤为严重,远不及13900K的水平。 05.png   而我们如果使用卓越性能档位,那么CPU的空载功耗会接近150W,此时全核心频率维持在1.9Ghz,使用时并不会出现明显的卡顿现象,启动程序的速度也变得正常。 虽然无论在那种模式下,长时间高负荷运行的3495X都会达到350W的TDP,最终的持久性能会保持一致,但在瞬时应用上平衡模式和卓越性能模式的体验差距十分明显。所以我个人建议在Windows下使用3495X时,应当将电源计划更改为卓越性能模式。 06.png   我们学过物理的都应该知道功率=电压X电流。CPU运行主要靠的是电流,我们可以认为CPU在固定频率下满负荷运行的电流基本上也是相对稳定的,那么电压也就成为了影响CPU高负荷运行功率的因素。由于每个CPU个体体质并不完全相同,为了保证每个CPU的稳定运行,所以CPU出厂时Intel会给出一个相对较高的电压,这样即使这颗CPU比较雷也能够稳定。而大部分的CPU并不需要如此之高的电压便可以稳定运行,多余的电压会成为反效果,带来更高的功耗。在功耗墙的控制下,反而无法达到最佳的效果。 07.png   比如这颗3495X,默认电压下功耗已经达到350W,此时全核心满载频率在2.7~2.9GHz之间Cinebench R23的得分为65000左右。而3495X默认情况下的全核心睿频频率应该是2.9Ghz,目前并不是这个3495X在350W功耗下的最佳状态。 08.png   我们进入主板的BIOS,超微X13SRA-TF进入Advanced——Overclocking feature——Processor。调整Core Voltage Offset为100mv,Offset Prefix为“-”。这个操作的大概意思将CPU核心电压VCore平均降低100mv,如果CPU体质够好可以降低更多。 09.jpg     这时我们在进行Cinebench R23测试,可以看到虽然功耗依然是350W,但所有核心频率全部提高到2.9GHz。HWMonitor中显示的IA Offset为-0.1V左右,证明我们的Offset设置成功,R23的得分也上升至7.2万分。 10.png 11.png   于此同时大核心的W9-3495X并没有桌面级13900K那样的积热情况,ABEE PLUS SPR360水冷散热器可以发挥最大效能,350W的CPU全程最高仅有50度出头,这在13900K上是不可想象的。

性能体验

Windows平台

  首先我们还是在熟悉的Windows 11 22H2环境下进行一些基准测试。不过尴尬的是Windows下好多测试程序都并不支持这么多线程,比如3DMARK CPU PROFILE,最大线程数的得分为16线程的1.5倍,这显然和112线程不成正比。 12.png

  再比如7zip,上来就只识别了64个线程 13.png   不过7zip的好处在于他可以手动指定测试线程数,此时如果人为改成112线程的话,得分也会有显著提高。而如果线程数已经达到上线之后再继续提高的话,得分就不会有相应提升了。 14.png   对于视频创作者来说,有时候我们发布了一个4K H265视频,却发现客户的电脑比较旧,视频播放起来卡成照片甚至根本无法播放。这时我们就需要对成品视频再次转码以适配客户的设备。
  我个人最常用的转码工具是handbrake,虽然现在更加流行使用GPU转码,不过CPU转码也有更好的通用性,并不会被完全取代。
  使用handbrake的预设,将4K HEVC转换为10bit AV1,比较可惜这个操作也不能使3495X的全部线程满载 15.jpg

Linux平台

  既然是WorkStation定位,自然不能不说Linux平台,在的Windows下,除了部分基准测试软件以外,很少有哪些应用能够使得3495X的112个线程全部满载,那这次我们来到了Ubuntu 22.04,看看Linux下的表现如何。 20.jpg   首先进行Blender渲染测试,通过Blender benchmark-CLI 3.5.0进行monster、junkshop、classroom三个场景的渲染。 21.jpg   Blender测试可以很好的吃满全部CPU线程,htop中显示CPU占用率达到11164%,基本达到112线程上限。 22.jpg   接下来是另一项常见的工作——代码编译。这里尝试编译linux kernel 5.15.107版本。 23.jpg 正常情况下make只开启一个线程进行编译,需要通过-j参数指定编译线程数,通过shell脚本在编译前后各输出一次系统时间,可以估算出整个编译过程的用时 24.jpg   可以看到单线程编译耗时14386秒,将近4个小时才能完成,而多线程编译时只需要214秒,效率高达67倍,甚至超过了核心数的倍率。 25.jpg   这是由于单线程线性编译的情况下,部分时间甚至单核心都无法吃满,例如上图情况,cc编译进程只占用单核心的26%。而在多线程并行编译的情况下,虽然单独进程也无法全部占满CPU,但整体可以保持一个较高的CPU利用率。 26.jpg

  密码破解时网络安全工作中经常遇到的场景之一,有一台高性能的破解机对于提高工作效率有着莫大的帮助。我这里使用john the ripper对一个8位数字的非字典密码进行暴力破解,开启112个线程 27.jpg

  破解出这个8位数字密码仅需一小时左右

结语

  经过这么长时间的体验下了,可以很确信的说,Sapphire Rapids的Xeon W9-3495X是Intel目前市面在售最好的单路处理器。不仅拥有56C112T的超高规格,还维持了相当不错的主频。
  虽然目前Windows 11 22H2操作系统对大小核异构处理器的支持已经很到位,但依旧难免有些古董级程序无法正常调度,这个现象在软件并不经常更新的企业级应用环境中变得更加明显,全大核的设计很好的规避了这一问题。
  优秀的温度控制加上可以超频的属性,为这颗CPU增加了巨大的可玩性。112通道PCI-E控制器带来了无限的扩展性。
  目前市面上在售的W790主板并不多,Supermicro 便占了两款。X13SRA-TF虽然在超频之类的可玩性上相比于家用主板为主的厂家还略逊一筹,但它应该是目前性价比最高的一款W790,并且还有BMC远程控制的加成,非常适合追求稳定的高性价比工作站用户选用。

    作者
    御剑江湖
    暂无签名...
  • 文章 --
  • 阅读量 --
  • 获赞 --
  • 排名 --
    标签
  • 官方评测