经验知识

Cortex-A78、X1、Mali-G78发布!ARM三剑客全解析

微信扫一扫,分享到朋友圈

Cortex-A78、X1、Mali-G78发布!ARM三剑客全解析
0 0

2019年5月,ARM发布了Cortex-A77 CPU和Mali-G77 GPU架构(准确说是IP,又称内核授权),刚刚量产的天玑1000+就是首款同时采用上述IP组合的旗舰级5G SoC。

昨天晚上,ARM正式发布了下一代IP,由Cortex-X1、Cortex-A78和Mali-G78组成的“三剑客”,从即将在今年9月发布的麒麟1000开始,未来的5G SoC都将因它们而获益,并有望进一步拉近与同期苹果A系列SoC的性能差距。

那么,ARM新一代的“三剑客”都有啥特色?

Cortex-A78:常规迭代更新

目前,骁龙865、天玑1000和Exyno 980等5G SoC都拿Cortex-A77架构作为CPU中的“大核”,也因此获得了强悍的运算动力。

作为Cortex-A77的接班人,Cortex-A78其实并没有什么本质上的变化,Cortex-A76、A77、A78都采用了相同的Austin微架构,三代核心在设计上存在很多共性。

用ARM的话来说,就是芯片供应商(如高通、联发科等)在构建核心时可以非常容易地升级SoC的IP设计,不会花费太多经历和成本,从而缩短了开发周期。

因此,大家不要对Cortex-A78性能抱有太大期待,ARM官方数据显示,A78相较于A77,其IPC(架构性能)只提升了7%,功耗降低了4%,内核小了5%,四核簇面积的缩小了15%。

还好,与Cortex-A78搭配的是最新一代的5nm制程工艺,天生就具备更好的能效比。

现在SoC内单个“大核”在满载时的功耗约为1W,此时7nm工艺生产的Cortex-A77可以跑到2.6GHz,而5nm工艺生产的Cortex-A78则可达到3GHz,相当于在相同功耗下获得了20%的性能提升。

另一方面,在相同的性能下,5nm工艺生产的2.1GHz Cortex-A78功耗比7nm工艺2.3GHz的Cortex-A77降低了50%,有助于提高5G手机的续航。

说实话,ARM的这种计算方式令人头大,不合理也不公平。如果Cortex-A77也用5nm工艺生产,性能也会比7nm工艺时提升不少,功耗也会明显下降。

反之,如果用7nm工艺生产Cortex-A78,其性能和功耗表现也不见得比Cortex-A77好多少。

只是,新工艺和新架构搭配是科技发展的趋势也最经济,还利于宣传。所以咱们也就别较真儿了。

Cortex-X1:自研的终结

从iPhone 5开始,苹果A系列处理器就开始了“自研”之旅,而这也是为什么每一代iPhone的性能几乎都可以领先同期Android手机圈的所有处理器。

所谓的“自研”,就是购买ARM最高级的指令集授权,然后根据自身需要开发兼容ARM的架构,能领先ARM公版的Cortex-A架构多少全看芯片商的技术水平。

高通曾在骁龙600/800时代采用过自研的Krait架构,距离最新的骁龙820也是自研的Kyro。只是,高通发现自研架构的能耗比很难领先公版Cortex-A架构太多,不经济,所以从骁龙835开始就采取了BoC战略,也就是咱们常说的“魔改”,基于现有的公版Cortex-A架构进行版定制化。

华为从麒麟980开始,也采用了类似的思路,其大核也是基于Cortex-A架构进行了“based”,同样是一种魔改。需要注意的是,公版Cortex-A架构可以进行“魔改”的地方并不多,大家基本都是拿缓存部分开刀,所以无论是高通还是麒麟,其魔改后的内核与公版架构之间的性能差异并不大,关键还是看主频。

三星从Exynos 8890开始也加入到自研大军,并推出了名为猫鼬(Mongoose)的架构核心。但是,经过四代自主研发后,三星在2019年底已经决定放弃自研的Mongoose内核,并解散了位于德州奥斯汀的整个研发团队,未来将全面使用ARM的设计方案。

可见,除了苹果,其他芯片商的自研之路可谓一路荆棘,费力不讨好。

好消息是,ARM此次发布的“三剑客”中的Cortex-X1,其实就是一种允许芯片商在其上进行高度定制的IP内核,可以完全取代辛苦的“自研”之路。

从ARM公布的架构细节上来看,Cortex-X1与Cortex-A78都是ARMv8.2指令集下的,指令集是兼容的,但Cortex-X1是自定义CPU核,解码带宽从4路提升到5路,增加了25%,NEON浮点从2条128b提升到了4条128b,相当于浮点性能翻倍。缓存方面,Cortex-X1的L1缓存可达64KB,L2缓存1MB,L3缓存可达8MB,是Cortex-A78的两倍。

基于以上的改进,Cortex-X1较之上一代A77,其单核性能可提升30%、AI性能更是大涨100%。

按照ARM的规划,未来Cortex-X1将扮演旗舰级5G SoC内的“超大核”,而Cortex-A78则属于普通的“大核”,再与Cortex-A55构成“1+3+4”的三丛集DynamIQ集群,以实现性能和功耗的完美平衡。

唯一可惜的,就是Cortex-X1内核会占用更大的封装面积。ARM的资料显示,4个Cortex-A78核心在搭配4MB L3缓存时,其性能比前代A77可提升20%,同时核心面积降低15%;而1个Cortex-X1+3个Cortex-A78在搭配8MB L3缓存时,虽然核心面积会增加15%,但峰值性能提升了30%。

换句话说,Cortex-X1至少可以带来比Cortex-A78额外的10%的性能提升,看起来也不大啊?

Mali-G78:计算单元暴增

在Android领域,ARM公版的Mali系列GPU已经一枝独秀,昔日的老对手PowerVR已被边缘化。而新一代Mali-G78 GPU的问世,将进一步巩固ARM的亲儿子在GPU领域的领先地位。

也许是没有太大的竞争压力,所以Mali-G78依旧沿用了Mali-G77采用的Valhall图形架构,但它对全局时钟域进行了优化,改为全新的两级结构,实现了上层共享GPU模块与实际着色器核心频率的分离,也就是异步时钟域。这样一来,GPU的核心可以工作在与其他部分不同的频率上,可快可慢,从而解决几何输出与计算、纹理、引擎之间的不平衡问题,还能让GPU运行在不同电压上,从而降低功耗、提高能效,这也是桌面级CPU、GPU通用的做法。

此外,Mali-G78还彻底重写了FMA(融合乘加)引擎,包括新的乘法架构、新的加法架构、FP32/FP16浮点,可以节省30%的功耗。

在Mali-G77时代,最多可以搭配16个计算单元,也就是Mali-G77 MC16,但受制于成本、发热和功耗,哪怕是最激进的Exynos 990也才用了11个计算单元,即Mali-G77 MC11,天玑1000+则配备了Mali-G77 MC9。

这一次,Mali-G78最多可以武装24个计算单元,较之前辈增加了50%。但正如上面的原因,哪怕搭配最新的5nm工艺,估计实际商用的最大规模也就是16个左右,再多手机散热就压不住了。

根据ARM的资料显示,得益于综合架构、工艺等各方面的改进,Mali-G78相比于Mali-G77的性能提升幅度可达25%,即便是在同等工艺条件下也可提升15%, 同时能效提升10%,机器学习性能提升15%。

看起来还不错。

此外,ARM还新推出了Mali-G68 GPU,用于填补Mali-G7系列和Mali-G5系之间的空白。从现有的资料来看,Mali-G68的架构和参数和Mali-G78一模一样,只是最多仅能搭配6个计算单元。

换句话说,搭配1~6个计算单元的Mali-G78就叫Mali-G68,超过6个计算单元的则是Mali-G77。

即将在9月份发布的麒麟1000系列应该是首发Cortex-A78和Mali-G78的5G SoC,但它能否用上Cortex-X1架构还不得而知。而明年上市的骁龙875、天玑2000和Exyno 1000系列也将用上“三剑客”中的至少1个成员,至于它们实际性能较之现有的旗舰能有多少提升,就让我们拭目以待吧。

文/电脑爱好者

Epic喜加一预告:《侍魂NeoGeo合集》将免费领取 6月19日登陆Steam

上一篇

从Wi-Fi 6+说起 无线芯片“配对”也很重要

下一篇

你也可能喜欢

发表评论

您的电子邮件地址不会被公开。 必填项已用 * 标注

提示:点击验证后方可评论!

 

插入图片
Cortex-A78、X1、Mali-G78发布!ARM三剑客全解析

长按储存图像,分享给朋友

微信扫一扫

微信扫一扫