性能大跃进,干翻x86!ArmNeoverseN1服务器处理器抢先解析-开云官网下载
因素,系统可以有非常大的内核数,Arm响应16核以上的系统不需要。L2内存可以选择512KB或1MB,512KB与Cortex A76大致相同,1MB内存可以处理不使用更多内存的应用程序。但是,将L2内存翻倍到1MB并不需要成本。这不会将内存延迟减少2个周期,11个周期以上的阻抗用于延迟。
Neoverse N1和Cortex A76的主要区别是,在扩展大规模内存操作员时,Neoverse N1找到的不是mash网络的方式,而是群集。如图所示,连接首先通过CAL或组件单一层。每个CAL至少反对两个模块,因此在每个“群集”中看不到两个CPU(本身不是实际的群集)。
然后,CAL默认连接到网络的交换机/路由器组件网格的XP(交叉)。每个XP都有两个可用的端口。在Arm参考设计示例中,第二个端口连接到系统级内存。
在64核系统中配备2MB系统级内存的示例系统中,总64MB内存的平均阻抗将延迟到22ns。从Arm获得的延迟数据是纳秒数,而不是周期数。
这是因为系统级内存和mesh与CPU异步工作的频率,通常约为内核频率的三分之二。必需的连接是Neoverse N1和CMN-600的全部特征。此功能不存在于此平台上,在Cortex体系结构中无法部署。
默认情况下,您需要将CPU内核连接到CMN的CHI模块,而不是删除DSU中的所有L3和过滤器逻辑。因此,内存控制器和CPU核心之间的通信必须通过中间层进行,中间层本质上是mash网络本身。
需要从内存控制器传输到CPU数据可能无法解释。CPU收到内存控制器的数据催款后,必须立即发送“预取”类型催款,通过mesh网络上XP主节点的导航过滤器长时间发送命令,然后路由到内存控制器。因此,内存控制器会提前通知催促的到来,并且已经开始获取数据,因此,整体传输可以部分隐藏有效的内存延迟,而不是按串行顺序展开。
预取对整个系统的性能最重要,智能管理数据预取可以有效地优化系统级比特率。据说,具有64个核心和8个DDR4 3200内存地下通道的Neoverse N1参考系统可以实现高达175GB/s的内存比特率。Arm还发布了延迟数据,但Arm的数据代表LMBench数据,具有256MB测试深度的2MB大页面。自由选择大页面会增加TLB的遗漏,并可能更像实际内存延迟。
这是Arm在这种情况下发布测量的基本原理。虽然目前还没有机会测试大型页面拍卖系统,但AMD的EPYC 7601(L RDIMM DDR 4 2666 19-19-19)在芯片的缓存层末尾通过LMBench等测试构建了约73ns的延迟,而定制研发延迟测试可以将TLB降至最低,然后推迟到约57。
Intel w-3175 x(RDImm DDR 2666 24-19-19)经过同样的测试,分别延期到94ns和64ns。用于生产台积电7nm工艺的Neoverse N1芯片面积非常小,用于512KB二级高速缓存时,核心面积约为1.2毫米,与长颈鹿980中使用的Cortex A76的1.26毫米完全相同。将L2内存翻倍到1MB,核心面积也只有1.4毫米。
在频率范围内,Arm的愿景是在0.75V电压下超过2.6GHz,在1V电压下达到3.1GHz。在这条频率曲线的末端,44%的功耗不能获得19%的频率和性能提高,因此大多数供应商期望在更相似的功率曲线中有更高的效率。但是从数字上看,Neoverse N1的功耗仅为1至1.8瓦,为64核SoC预留了足够的空间,Arm对64核Neoverse N1参考设计的总功耗约为105瓦。Neove Resen1超大型参考设计Arm获得Neove Resen1的原始参考设计,其中包含Arm直接验证的IP集。
该参考设计的目标是为供应商提供“甜点”选项。这样可以用最多的希望创造个性化的性能。
Neoverse N1的参考设计可以使用64或128核配置构建在具有64 MB或128MB系统级内存的CMN-600 mash网络上。对于I/O模块,128个PCI-E 4.0地下通道分别用作I/O和CCIX模块,以获得足够的I/O比特率。在内存方面,Arm至少有8个反对3200MHz的地下通道DDR4控制器。
但是,在大多数情况下,客户不用于自己的内部设计,也可以由其他第三方供应商(如Cadence或Synopsys)自由选择,因此,Arm已经退出了自己开发的内存控制器。Arm自己的DMC-520内存控制器目前在参考设计方面仍然是最新的,对公司来说是一个能够很好地解释的模块。
但是,以后DDR5等最新的内存控制器也可能需要依赖第三方IP。SoC的物理构建用于方便设计的适应性分层构造块。
每个CPU模块由两个Neoverse N1内核、一组系统级内存、CMN的交叉点和本地节点的一部分组成。通过旋转和镜像,可以复制CPU模块,分解最终SoC顶级网格。在7nm流程节点上,Arm的64核Neoverse N1参考设计配有64MB缓存,芯片大小与400毫米相似,可能略高于供应商认为的生产力目标。
为了缓解这种担忧,Arm还明确提出了设计小芯片的想法,使多个小芯片能够通过CCIX链路进行通信,从而确保适当的灵活性,并允许供应商决定解决方案的设计方法。智能卡构建能力也是设计和灵活性的最重要方面。
在大型系统中,为了最大限度地提高计算能力,提高网络连接速度本质上是在尽可能密集有效的形式因素下构建低吞吐量的关键。CMN-600可以在交叉点安装从端口,并通过高达128 GB/秒的高带宽总线连接到内存管理单元,出色地连接其他具有相同功能的硬件模块。CCIX需要与第三方IP产品一起构建产品组合,因此对Arm至关重要。对外部IP模块的缓存一致性极大地简化了供应商的软件设计,因此是一个非常有吸引力的功能。
基本上,软件只能查看大的内存块,相关系统意味着驱动程序和软件必须告诉并跟踪内存的哪个部分有效,哪些是有效的。在IP部署方面,Arm获得与在CMN-600上构建的CCIX完全匹配的网关,而第三方IP供应商获得CCIX交换层是第三方IP供应商的责任。对Arm来说,CCIX最重要的是,必须与第三方IP产品一起构建产品组合。
外部IP块的内存一致性是大幅简化供应商软件设计的吸引人的功能,需要系统、驱动程序和软件跟踪有效的内存。对于IP部署,Arm获得了与CMN-600构建的CCIX兼容网关,而第三方IP供应商获得了CCIX翻译层。在芯片的逻辑设计中,供应商需要设计一个强大的配电网络,以适应实际使用的各种中风和苛刻的电力市场需求。
设计必须是简单的模型,大多数情况下,部署网络必须过度设计以确保稳定性,从而减少实施的复杂性和成本,因此这对很多供应商来说是一个非常混乱的问题。Arm的目的是通过专用微控制器获得精细的动态电压频率调节(DVFS)机制,缓解这些问题。控制器采访CPU核心内的详细活动监控设备,确定实际上有多少晶体管在工作,并将此信息传递给系统控制器,以更改DVFS状态。
这就要求供应商将分发网络设计成更激进的容差,从而降低实施成本。关于性能预测性能和效率的争论必须用明确的数字来决定。Arm发布Neoverse N1时,大部分性能数据都比Cortex A72有所改善,没有将Neoverse N1放置在竞争格局中最相关的数据点上。
Cortex A72是2015年推出的体系结构,两种产品之间有3至4年的期限。与具有完全相同频率和一定系统级内存的Cortex A72平台相比,新的Neoverse N1平台必须以压迫感获胜。
在SPEC的单线程测试中,Neoverse N1的整数计算每时钟性能(PPC)比Cortex A72提高了60%至70%,浮点计算性能提高了100%至120%。另外,Neoverse N1还有很多其他SoC水平的改善和软件优化,所以实际性能不会更高。
与传统解决方案相比,Arm递归地重复了相当大的性能演化,在矢量工作阻抗上构建了高达2倍的性能提升。自然,Neoverse N1反对ARMv8.2命令,也意味着反对8分乘积和FP16半精度命令。这些指令特别适合机器学习工作阻抗,并构建了比以前平台提高近5倍的性能。
(威廉莎士比亚,Northern Exposure(美国电视连续剧),运营速度约为2.6GHz的64核Neoverse N1超大型参考设计,在105W TDP下,SPECint2006单线程分数约为37,多线程分数预计约为1310。但是,该性能不是在实际运行的产品中测量的,而是在Arm的服务器场中用于RTL模拟环境。Neoverse N1的单线程分数明显低于同类Cortex A76测定的26分,并且不认为软件和编译器考虑不当,导致42%性能差异的原因之一是Neoverse N1享有更好的内存和内存系统,整体系统比特率比Cortex A76等移动SoC低6倍。Arm特别强调,在提高生态系统性能的诸多希望中,除了获得更好的硬件外,还需要获得更好的软件。
过去几年里,Arm为改进开放源代码工具和编译器做了很多工作。例如,与早期版本的GCC5相比,最新版本的GCC9的整数和浮点操作阻抗性能提高了13%至15%,单线程性能方面,Neoverse N1以相当大的优势战胜了Cavium的ThunderX2,这是目前性能最高的Arm服务器CPU。因为是面向服务器的产品,所以必须与现有供应商英特尔和AMD进行比较。英特尔和AMD最近最差的至强W-3172X和EPYC 7601在一定程度上用于GCC8编译器的二进制文件部署。
Intel的Xeon W-3172X很难说是最具代表性的超大型CPU,但4.5GHz单核和重复亲和力可以获得多核CPU中最弱的单线程性能。AMD的EPYC 7601是3.2GHz频率比Neoverse N1高得多的代表性数据点,在实际成绩中也可以清楚地看到。请再次查看SPECrate2006的多线程测试。
该测试是所有平台的最佳扩展方案。没有序列化或线程之间的通信。测试套件只是对多个过程进行分段。
Arm的模拟测试结果显示,64核Neoverse N1以105瓦的TPD构建了卓越的性能和效率,x86解决方案也很难竞争。测试比64核Arm平台和32/28核x86平台更公平的是,AMD专门用于要销售的64核Rome处理器,但即使AMD的64核处理器现在部署了两倍的性能,TDP也不太可能下降到与Neoverse N1相同的105W水平(EPYC 7601)。摘要Neoverse N1是Arm一贯领先的电力Arm对Neoverse N1及其最后的继任者抱有希望,将从英特尔等供应商那里窃取x86处理器根深蒂固的市场份额。
Arm正在尽最大努力。Neoverse N1将成为主力x86的核心竞争对手,但可扩展到更多核心的工作阻抗不包括根本威胁。
当然,在实际硬件产品经常出现之前不能得出结论,但Arm有理由相信对Neoverse N1的性能预测,因为此前对Cortex A76的性能预测与实际设备的测量结果非常一致。构建预测的性能认同感值得期待。
新的硬件IP令人印象深刻,但在一定程度上最重要的是Arm对加强Arm软件生态系统的希望。为了提高与软件堆栈和Arm的互操作性,与不同行业的硬件和软件合作伙伴合作,不仅有助于Arm自己的硬件IP使用的供应商,还有助于自由选择可用于自行定制CPU和SoC设计的供应商。在一定程度上,试图改善和加强其产品的供应商也将加强反Arm的生态系统。本质上,这是许多公司之间的集体希望,未来将获得动力。
Arm在过去一年里对Arm生态系统革命性的基础设施建设非常认真,我们第一次看到Arm供应商平台与Intel和AMD等主流企业竞争。Arm没有透露谁将首先用于Neoverse N1平台,但Arm却沦落为无可辩驳的行业主流。
据悉,Neoverse N1将在未来12至18个月内开始商业部署,这将是Arm的重要时刻。如果一切进展成功,Arm和合作伙伴将建立承诺的改善,在未来1~2年内,服务器行业将最终进入根本性变化。版权文章,发布许可禁令。
下面,我们来听一下关于刊登的注意事项。
本文关键词:性能,开云官网下载,大跃进,干翻,x86,ArmNeoverseN1,服务器,因素
本文来源:开云官网下载-www.wh-jdkj.com