对于Arm来说,2019年是伟大的一年。这一年ARM的Cortex内核依然是手机CPU领域的佼佼者,特别是Cortex-A77。红极一时的高通骁龙865处理器采用的就是Cortex-A77。
据说采用骁龙865处理器的手机有70款之多,其中就有三星的Galaxy S20系列、索尼Xperia 1 II、OPPO的Find X2、努比亚的Red Magic 5G、小米10和小米10 Pro等。
但是2019年关于ARM公司最大的新闻不是移动领域,而是服务器领域:Neoverse N1和Neoverse E1平台,例如华为鲲鹏920和亚马逊的Graviton2高性能处理器都令人印象深刻。
徐文伟发布业界最高性能ARM-based处理器-华为鲲鹏920
Snapdragon 865www.qualcomm.com
ARM服务器领域确实正在腾飞,旨在与AMD和Intel竞争,但ARM尚未达到移动市场的巅峰,至少现在还没有。
2020年ARM在移动处理器领域继续发力,同时发布了两款新型处理器内核Cortex-A78和Cortex-X1,将移动处理器的性能推向了一个新的高峰。
新型Cortex-A78:效率加倍
新的Cortex-A78虽然性能强劲,但是它并不使我们感到惊讶,因为第三代是ARM的第三代Austin内核,该系列内核保持着每年迭代一次的升级进度,从2018年发布的Cortex-A76,到2019年发布的Cortex-A77,再到2020年发布的Cortex-A78,这一切都如约而至。
全新的Cortex-A78延续了ARM的传统设计理念,即严格按照性能,功率和面积(PPA)之间的平衡进行设计,适用于5nm工艺,性能提升20%,功耗降低了50%,面积却缩小了5%,为四核集群节省了大约15%的面积,这将为额外的GPU、NPU和其他组件腾出了更多的空间。
Cortex-A78:性能提升20%
ARM每年一次架构升级,这是大家意料之中的事情,但是今年ARM在传统的架构升级之外,又搞出来一个Cortex-X,ARM意欲何为呢?
新型Cortex-X1:打破设计约束链
与Cortex-A78还要兼顾性能、功耗、面积(PPA)不同,Cortex-X1使用了全新的架构,是ARM为实现性能大幅增长而设计的,其性能比前代CPU提升了30%,比Cortex-A78也提升了22%,机器学习性能更是提升100%。
Cortex-X1:专为终极性能而设计
Cortex-X1灵活搭配:充当超大核1+3+4三簇核心
与4核Cortex-A77和4核Cortex-A55集群相比,4核Cortex-A78和4核Cortex-A55的DynamIQ集群可将性能提高20%。
但是,引入Cortex-X1可以通过提高峰值性能来实现更大的可扩展性。将单核Cortex-X1作为DynamIQ集群的一部分,再加上3核Cortex-A78和4核Cortex-A55,峰值性能比上一代产品提高了30%。
当与Cortex-A78的卓越效率相结合时,它可提供最佳的持续性能和最佳性能。
Cortex-A78和Cortex-X1 DynamIQ群集,与上一代产品相比
Cortex-X Custom (CXC) program
Cortex-X1除了性能大涨,还提供了更灵活的定制特性,也就是ARM官方所说的 Cortex-X Custom (CXC) program,大家知道Cortex-A公版授权能改的地方不多,主要就是缓存部分,而CXC则允许客户自定义,有更多的不同特性,在研发早期阶段就允许客户参与。
Cortex-X Custom CPU programwww.arm.com
当然,CXC的授权费肯定也是不一样的,比Cortex-A系列更贵是没跑了。其实我们再大胆猜测一下,近年来随着高通、三星都放弃自研ARM核心,除了苹果之外其他厂商都改回公版架构了,ARM现在推出Cortex-X1也是一种调整,相当于一个官方预改进版,高通、华为、三星等客户可以自己继续再改,定制不同的特性。
ARM内核公版架构的变迁
ARM内核公版架构一直是两条路线:
- 大核心:从A57、A72、A75、A76、A77、A78一路进化;
- 小核心:从A53、A55一路进化。
应该说,ARM公版架构的水平还是很高的。在智能手机初期,高通是不屑于ARM公版架构的,但是几年下来,高通发现自己努力了半天,还不如ARM公版架构做得好,就放弃了。
三星也曾经努力搞自己的架构,但是几年下来,也发现了同样的问题,自己花了很多钱搞的高性能架构,实际性能并不强,而功耗很高,结果三星也放弃了。
华为在鲲鹏上先用ARM公版,几代之后尝试了一下自己搞架构,交给ARM很贵的指令集授权费用,但是出来的成果和ARM公版的A76差不多,效果不明显。但是华为还在坚持研发,希望能够突破。
只有苹果的ARM架构自研取得了成功,苹果在性能上几乎能够领先ARM公版架构两代。但是,在最高功耗上,苹果这几年也没有降下来。性能功耗比没有多大领先优势。
ARM公版受到苹果自研架构的威胁
ARM公版的大核心要求持续性能,就是长时间可用的性能,所以功耗限制在2W以内。而苹果的理解是,大核心是短期性能,用的时间短,可以做到4W-5W。而长时间运行,就用小核心了。
苹果的小核心非常强大,A12的小核心性能就已经接近ARM的A75大核心了。这让苹果手机一直有性能优势。而ARM也逐渐认识到了自己大核心不强的问题。
所以ARM推出Cortex-X1的目的也很明显,是为了更好地在高性能领域中建立自己的地盘,在移动端也可向苹果自研的A系列处理器发起冲击,后者的大核性能真的很恐怖。
写在最后
从这次ARM发布的情况看,ARM已经开始分三类核心:
- 超大核心:就是Cortex-X系列内核,大幅提高复杂性,不再考虑太高的能效比,作为超大核心使用。
- 中核心:就是我们之前一直说的大核,高频功耗在2W以内,优势频率在1W以内,比如A76、A77、A78等;
- 小核心:还是之前的概念,比如A55。
这样,在处理大型APP需要高性能的时候,可以激活大核心获得最高性能,提升表现,应对一般计算密集型任务使用中核心,应对I/O密集型任务则使用小核心,从而获得最佳的能耗比。
这个思路,其实最早是MTK提出来的,后来高通和海思用区分大核心频率来解决,ARM也算是亡羊补牢,为时未晚啊。