本文来自格隆汇专栏:半导体行业观察
几周前,我们看到 Apple 发布了他们最新的 iPhone 13 系列设备,这是一组由最新的 Apple A15 SoC 赋能的手机。在苹果的发布会上,他们对于最新的芯片语焉不详,在几年的文章里,我们仔细研究了其新一代芯片组,看看 Apple 在新芯片中究竟带来了什么杨变。
值得说一下,今年苹果在 A15 的公关方面有点奇怪,特别是该公司在新芯片的性能谈论中,避免将其与自己的 A14 进行任何世代比较。与过往不同的是,Apple 今年更喜欢在竞争环境中描述 SoC;虽然这在 Mac 方面并不罕见,但在今年 iPhone 发布会上,情况比往年更加突出。
关于 A15 的几个具体事实是,Apple 正在为其 CPU 使用新设计、更快的神经引擎、新的 4 核或 5 核 GPU(取决于 iPhone 版本),以及全新的显示pipeline 和视频媒体硬件块编码和解码,以及新的 ISP 改进以提高相机质量。
在 CPU 方面,苹果对其改进谈的非常模糊,苹果声称其比竞争对手快 50%,GPU 性能指标也是这样制定的,按照苹果的描述,其A15的4 核 GPU 比竞争对手快 30%。而 5 核版本的速度则较之竞争对手提高了50%。
在本文中,我们已经完成了 SoC 的初始阶段评测,我们将重点关注在新芯片的确切性能和效率指标。
频率提升:3.24GHz 性能核和 2.0GHz的效率内核
让我们先从 CPU 方面开始。
据说,新的 A15 具有两个新的 CPU 微架构,分别用于性能内核和效率内核。关于新内核性能的前几份报告集中在频率上,我们现在也可以从测试中确认:
如上图所示,与A14相比,全新A15将双性能核心集群的单核峰值频率提升了8%,相比上一代的2998MHz,新核心的频率现在达到了3240MHz。当两个性能核心都处于活动状态时,它们的工作频率实际上提高了 10%,与上一代的 2890MHz 相比,它们现在都以激进的 3180MHz 频率运行。
总的来说,考虑到从设计层面推动这一性能的提升很难,我们可以看出Apple 在这里的频率增加表现非常激进,特别在当我们不期望能从新工艺节点方面获得重大性能提升时,这种提升更是显著。据我们分析,A15 应该是在台积电的 N5P 节点的变体工艺上制造,尽管两家公司都没有真正透露设计的确切细节。不过台积电声称 N5 的频率增加了 +5%,因此对于 Apple 而言,如果超出这个范围,则表明功耗会增加。在我们深入研究 CPU 的功率特性时,请记住这一点。
A15 的效率核心频率现在能够达到 2016MHz,比 A14 的核心增加了 10.5%。这里的频率与性能核心无关,因为集群中的线程数量不会影响其他集群,反之亦然。苹果对这一代的小核心做了一些更有趣的改变,我们稍后会谈到。
巨型缓存:性能 CPU的 L2 增加到 12MB,SLC 增加到 32MB
苹果在发布时透露的一个更直接的技术细节是,与 A14 相比,A15 现在具有两倍的系统缓存。两年前,我们详细介绍了 A13 的新 SLC,它从 A12 的 8MB 增加到 16MB,这个大小在 A14 代中也保持不变。Apple 声称他们已将其增加了一倍,因此这意味着 A15 中现在有 32MB的SLC。
看看我们对新 A15 的延迟测试,我们现在确实可以确认 SLC 现在已经翻了一番,达到 32MB,进一步推动内存深度达到 DRAM。Apple 的 SLC 可能是芯片能效的关键因素,能够将内存访问保持在同一个硅片上,而不是使用速度更慢、功率效率更低的 DRAM。我们已经看到更多 SoC 供应商采用了这些类型的最后一级缓存,但在 32MB 的情况下,新的 A15 使竞争对手的实现相形见绌,例如骁龙 888 上的 3MB SLC或 Exynos 2100 上估计的 6-8MB SLC .
Apple 没有透露的是,性能核心的 L2 缓存也发生了变化,现在已经从 8MB 增加到 12MB,增长了 50%。这实际上与 Apple M1 上的 L2 大小相同,只是这一次它只提供两个性能核心而不是四个。访问延迟似乎从 A14 上的 16 个周期上升到 A15 上的 18 个周期。在性能核心上,我还看到 L1 速度的一些变化,因为它似乎能够对缓存行进行 1 周期访问,只要它们在同一页面中,在 A14 上进行相同类型的访问需要 3 个周期。
一个 12MB 的 L2 也是巨大的,与其他设计(例如Snapdragon 888)的 L3+L2 组合(4+1+3x0.5 = 6.5MB)相比增加了一倍多。很明显,Apple 在这这一代的SoC上投入了大量 SRAM。
今年的效率核心似乎没有改变它们的缓存大小,保持在 64KB L1D 和 4MB 共享 L2,但是我们看到 Apple 已将 L2 TLB 增加到 2048 个 entries,现在覆盖高达 32MB,可能会促进更好的 SLC 访问延迟。有趣的是,Apple 现在允许效率内核具有更快的 DRAM 访问,延迟现在约为 130ns,而 A14 上的延迟为 +215ns.
CPU 微架构变化:缓慢的一年?
苹果今年的 CPU 微架构有点像wildcard。今年早些时候,Arm 宣布了新的 Armv9 ISA,主要由新的 SVE2 SIMD 指令集定义,以及该公司采用新架构的新 Cortex 系列 CPU IP。早在 2013 年,Apple 就因成为市场上第一个拥有 Armv8 CPU 的产品而闻名,这是第一个支持64 位的移动设计。考虑到这种情况,我们预计苹果今年会在新的一代SoC中也会推出 v9,但 A15 似乎并非如此。
在微架构上,A15 上的新性能核心似乎与去年的设计没有太大区别。我还没有花时间查看设计的每一个角落,但与 A14 性能核心相比,至少处理器的后端在吞吐量和延迟方面是相同的。
效率核心有了更多的变化,除了一些内存子系统 TLB 的变化,新的 E-core 现在获得了一个额外的整数 ALU,使总数从之前的 3 个增加到 4 个。无论如何都被称为“小”,而且今年似乎增长得更多。
苹果今年更温和的微架构变化的可能是几个原因造成的——苹果在 2019 年失去了他们在大型性能核心以及部分设计团队的首席架构师(Nuvia)(后来在今年早些时候被高通收购)。向 Armv9 的转变也可能意味着在设计上做了更多的工作,而疫情也可能导致了一些非理想的执行。等到明年的 A16,我们才能真正确定 Apple 的设计节奏是否已经放缓,或者这是否只是一个节点,或者只是下一个微架构发生更大变化之前的平静。
虽然这里的基调描绘了 A15 的 CPU 的相当保守的改进,但在查看性能和效率后,我们发现事实绝非如此。
CPU ST 性能:更快、更高效
为了更深入地了解 CPU 单线程性能和能效,我们将转 SPEC CPU 2017求助。虽然从2006 开始,我们就一直使用这个工具,但知道现在,他们仍然是非常重要且有效的。现在,他们在其组件中对微架构方面得到了更好的理解,并且随着我们前一段时间将桌面端覆盖范围移至新套件而变得更加相关。
SPEC CPU 2017 的一个持续问题是 Fortran 子测试;由于缺乏 iOS 和 Android 上的编译器基础设施,我们完全跳过这些组件用于移动设备。这也意味着,此处提供的总总分无法与其他平台上的完整套件分数相提并论,在分数描述中用 (C/C++) 下标表示。
与往常一样,因为我们运行完全定制的harnesses并且没有正式向 SPEC 提交分数,所以我们必须将结果表示为“估计”,尽管我们对准确性有很高的信心。
在编译器设置方面,我们将继续使用简单的-Ofast标志而不做进一步的更改,以便能够获得最佳的跨平台比较。在 iOS 方面,我们运行的是最新的 XCode 13 构建工具,而在 Android 上,我们运行的是 NDKr23 构建工具。
在性能和效率细节方面,我们将从现在开始展现一下图表:在左轴上我们有测试的性能分数,此处更大的条形意味着更好的性能;在右侧轴上,从右到左增长的是平台的能耗数据,数字越小,完成的工作负载越节能(消耗的能量越少)。除了以焦耳为单位的能量数据外,我们还展示了以瓦特为单位的平均功率数据。
在A15 的性能数据方面,我们看到了全面的提升。如图所示,其绝对性能从 2.5% 的低点上升到 +37% 的峰值。
在 505.mcf_r 中,我们发现了最低的性能提升,这是一个对内存延迟更敏感的工作负载;鉴于 L2 延迟增加以及 DRAM 延迟略高,我们看到更小的性能提升并不会太出乎意料。但是,在查看相同工作负载的功耗和效率指标时,我们发现 A15 的功耗比 A14 少近 900mW,能效提高了 +22%。520.omnetpp_r 的性能提升幅度最大,为 37%——这里的功耗略有提升,但能源效率也提升了 24%。
在大多数后端执行受限的工作负载时,我们发现 A15 的最小性能提升,525.x264_r 和 538.imagick_r 仅提高 8.7%,导致 IPC 增加 0.6% ,这基本上在测量噪声范围内。由此我们可以看到,即使在最糟糕的情况下,Apple 仍然设法将其能效提高了 13%。这就意味着即使时钟频率有所提高,但新芯片的绝对功耗也较低。
最耗电的工作负载 519.lbm_r 非常耗带宽,并且在套件中对 DRAM 的压力最大,这里的 A15 芯片消耗了高达 6.9W 的功耗。尽管如此,随着性能提升 17.9%,能效在代际上略有提高——根据第一次拆解报告,A15 仍然仅采用 LPDDR4X 级内存,因此这些改进必须归功于芯片的新内存子系统和新 SLC。
让我们将目光转移到效率核心上,我不仅想与 A14 的 E 核进行比较,还想将 Apple 芯片与竞争对手进行比较,在这种情况下,我们将其与Snapdragon 888 的 2.41GHz 的中和Cortex-A78 ,以及 1.8GHz Cortex-A55 的小内核比较。
测试数据显示,A15 的 E 核在性能方面的表现令人印象深刻。最小改进从 531.deepsjeng_r 中的 +8.4(基本上与时钟持平)到 520.omnetpp_r 中的 +46% 不等,这为芯片的某种大型有效稀疏内存访问并行性改进提供了更多证据(some sort of large effective sparsememory access parallelism improvement for the chip)。核心的性能提升中位数为 +23%,导致 IPC 中位数增加 +11.6%。这里的内核没有表现出与新 A15 的性能内核相同的能效改进,因为由于性能增加以功率增加为代价,能耗基本持平,而功耗增加仍然非常低。
与骁龙 888 相比,两者的对比非常明显。
首先,Apple 的 E-core 虽然不如 Android SoC 上的中核那么强大,但仍然相当受人尊敬,并且至少在类似的性能等级中确实有些接近。在与小 Cortex-A55 内核比较时,效果更加惊人,因为 A15 的 E 内核平均快 3.5 倍,但仅仅消耗 32% 的功耗,因此能效提高 60%。即使对于中间核心,如果我们可能要降低它们的时钟频率以匹配 A15 的 E-core 的性能,能源效率也是 Apple 实现的多个因素。
在概览图中,我也稍微改变了一些东西,转向气泡图,以更好地在空间上表示能效定位的性能,以及功率定位的性能。在我个人认为更能代表 SoC 的比较效率和由此产生的电池寿命体验的能量轴图中,我们看到了处于峰值 CPU 性能状态的各种 SoC 与完成工作负载消耗的总能量的对比。在功耗轴图上,我们看到相同的数据,只是针对平均功耗绘制的。一般来说,我发现不同数据点之间的功耗差异相当困难,但是有些读者要求这种观点。气泡大小对应于各个 CPU 的平均功率,我们测量的是系统有功功率,
苹果 A15 的性能核心在这里非常令人印象深刻——通常性能的提升总是伴随着某种效率的不足,或者至少是效率持平。相反,Apple 在这里设法降低功耗,同时提高性能,这意味着与 A14 相比,峰值性能状态下的能源效率提高了 17%。如果我们能够在相同的性能水平上测量两个 SoC,那么 A15 的这种效率优势会变得更大。在我们对Apple 公告的初步报道中,我们推测该公司今年可能会投资于能源效率而不是性能提升,我很高兴看到这似乎正是发生的事情,解释了一些更保守的(在至少对 Apple 而言)性能改进。
另一方面,苹果的 A15 的性能核在整数套件中的得分为 7.28。作为对比,AMD 基于 Zen3 的 Ryzen 5950X 得分为 7.29,苹果M1的得分为6.66。
A15 的效率核心也令人印象深刻——在最高性能时,效率是持平的,但它们的速度也快了 28%。同样,如果我们能够在相同的性能水平上比较两款 SoC,A15 的 E 核的效率优势将非常明显。E-cores 更好的性能也大大有助于避免 P-cores,进一步提高 SoC 的能效。
与竞争对手相比,A15 并没有像 Apple 声称的那样快 50%,而是快了62%。虽然苹果更大的内核更耗电,但它们的能效仍然高得多。诚然,我们看到了有利于 Apple 的流程节点差异。A15 E-cores 的性能和效率也让其他竞争对手相形见绌。4 个效率核心的超强性能以及 2 个大核心的领先性能解释了多线程性能明显优于竞争的 1+3+4 设置。
总体而言,新的 A15 CPU 是实质性的改进,尽管有些人不会立即注意到这一点。效率提升可能是 iPhone 13 系列手机新的更长电池寿命的关键——在几天后的专门文章中以及我们的完整设备评论中会有更多的介绍。
GPU 性能:出色的 GPU,一般般的散热设计
在这一代的A15 芯片上,GPU的配置很有趣,这是苹果第一次在 iPhone 设备范围内对其 SoC 上的 GPU 配置进行功能分割,iPhone 13 mini 和 iPhone 13 获得了 4 核的 GPU,类似于 A14去年的设备,而 13 Pro 和 13 Pro Max 获得了 SoC 的 5 核GPU变体。
在这两种情况下,它仍然是相同的 SoC 和硅芯片,只是苹果在非 Pro 型号上禁用了一个 GPU 核心,他们这样做可能是出于差能原因?
Apple 的 GPU 性能数据也有点有趣,因为没有任何代际比较,只有与竞争对手的“+30%”和“+50%”数据。我最初的理论是对 A14 表示 +10% 和 +28%,所以让我们看看这是否可行:
在 3DMark Wild Life 测试中,我们看到 5 核 A15 比 A15 高出 +30%,而 4 核的性能提升了+14%,非常接近我们的预测。这里的峰值性能基本上是最接近的竞争对手的两倍,因此苹果可能会再次低头。
在持续性能方面,新芯片继续在冷手机和热手机上表现出巨大的差异,有趣的是,4核 iPhone 13 在这里比 13 Pro 领先一点,稍后会详细介绍.
在 Basemark GPU 中,13 Pro 比 12 Pro 高出28%,而 4 核 iPhone 13 仅稍微慢一些。再一次,手机的节流很重,但仍然能够以远高于比赛峰值表现的持续性能着陆。
在 GFXBench Aztec High 中,13 Pro 与 12 Pro 相比具有+46% 的巨大性能优势,而 13 Pro 则表现出 +19%的提升。这些数字超出了预期——在微架构变化方面,新的 A15 GPU 似乎采用了与 M1 GPU 相同的双倍 FP32 吞吐量,似乎在现有的 FP32/双倍速率 FP16 ALU 旁边增加了额外的单元。增加的 32MB SLC 也可能对 GPU 带宽和hit-rates有很大帮助,因此这两个变化似乎是大幅增加的最明显的解释。
在功耗和效率方面,我也从表格迁移到气泡图,以更好地表示各种 SoC 的空间定位。
我还想在这里指出,我已经继续并重新测量了处于峰值性能状态的 A13 和 A14 手机,展示了比我们过去发布的更大的功耗数据。这样做的原因是我们只能通过手机的输入功耗进行测量的方法,因为我们无法拆卸样品,让我们无法访问 PMIC 电量计。这里的 iPhone 13 数据通常希望是正确的,因为我测量了其他高达 9W 的情况,但是对于手机是否正在使用电池仍然存在一些疑问。持续功耗数据具有更高的可靠性。
如前所述,A15 的峰值性能要好得多,但与 A14 相比,这款手机的耗电量似乎也略有提高,这意味着我们看到了显著的效率提升。
加载几分钟后,13 和13 Pro 的速度都会很快,但通常在不同的功耗点。配备 5 核 GPU的 13 Pro 节流(throttle)至 3W 左右,而 13 Pro 节流至3.6W 左右。
在 Aztec Normal 中,我们在性能和效率方面看到了类似的相对定位。由于节流级别不同,iPhone 13 和 13 Pro 的性能比预期的要接近得多。
最后,在Manhattan 3.1中,A15 的 5 核性鞥你上升了 +32%,而 4核上升了 +18%。两者的持续性能没有显著差异,并且与 iPhone 11 和 12 系列相比也有较小的改进。
令人印象深刻的 GPU 性能,但散热非常有限
我们在这里的结果展示了硬币的两个方面:就峰值性能而言,新的 A15GPU 绝对令人惊讶,并且再次展示了远高于 Apple 营销宣传的改进。新的 GPU 架构,可能还有新的 SLC,可以极大地提高性能和效率。
但他们表现不是很好的方面是手机的功耗方面。特别是,与 iPhone 13 以及上一代 iPhone 相比,我们似乎发现 iPhone 13 Pro 的功耗水平明显降低。
今年的 13 Pro 机型采用了新的 PCB 设计,其密度甚至比我们前几代的还要高,以便于使用更大的电池和新的相机模块。Apple的主板设计非常令人困惑的是,由于他们采用了双层“三明治”PCB,因此他们将 SoC 封装在两个焊接板的内部。这与三星等其他供应商形成鲜明对比,他们也采用了“三明治”PCB,但 SoC 位于组件的外侧,与散热器和显示器中框直接接触。
有报道称,新 iPhone 在游戏和蜂窝连接下的热量更高——嗯,我确信将调制解调器直接放在三明治内的 SoC 对面是造成这种情况的一个因素。iPhone 13 Pro 显示较低的持续功耗水平可能与新的 PCB 设计有关,而 Apple 的整体 iPhone 散热设计绝对是最糟糕的,因为它无法很好地将热量散布到整个机身手机,实现远小于实际设备热包络的 SoC 热包络。
游戏中没有直接对比
在一般游戏性能方面,我还想说明一些事情——即使热容量有限,新iPhone 仍然比竞争手机提供更好的游戏体验快得多。最近,对实际游戏进行基准测试变得越来越流行,总的来说,我完全赞成,但只是存在一些基本的不一致,使得直接比较游戏在经验上无法得出 SoC 结论。
以 Genshin Impact 为例,它无疑是目前排名第一的 AAA 手机游戏,也是目前市场上对性能要求最高的游戏之一,比较 Galaxy S21Ultra(Snapdragon 888)、Mi 11Ultra 和 iPhone 13 Pro Max的视觉保真度。:
尽管 S21 Ultra 和 Mi 11 Ultra 都具有相同的 SoC,但它们在散热方面具有非常不同的特性。在相同条件下,S21 Ultra 一般可维持约 3.5W 的总设备功率,而 Mi 11 Ultra 将徘徊在 5-6W 之间,并且是一款更热的手机。两者之间的差异不仅体现在游戏性能上,还体现在视觉保真度上,因为 S21 Ultra 由于游戏具有动态分辨率缩放(两款手机具有完全相同的游戏设置)而运行的分辨率要低得多)。
Android 手机和 iPhone 之间的比较变得更加复杂,因为即使在相同的游戏设置下,iPhone 仍然具有稍高的分辨率,以及在游戏的 Android 版本中完全没有的视觉效果。由于出色的阴影和功能,Apple 设备上的游戏视觉保真度要高得多。
总的来说,这是我担心发布真实游戏基准的一个原因,因为它只是一个错误的比较,可能会导致误导性结论。我们使用专门设计的基准测试来实现性能方面的“基本事实”,尤其是在 SoC、GPU 和架构的背景下。
A15 继续巩固苹果在移动游戏领域的主导地位。我们期待着下一代竞争,尤其是明年的 RDNA 驱动的 Exynos 手机,但到目前为止,Apple 似乎拥有非常舒适的领先优势,不必担心太多。
结论
今天对新款 A15 的测评只是触及了苹果在新一代 iPhone 13 系列设备中所提供的冰山一角。由于我们仍在进行完整的设备审查,因此我们对新芯片能够实现的目标以及新设备在性能方面的期望有更深入了解。
在 CPU 方面,苹果最初对新 A15 改进的模糊介绍可能会让人失望失望,或者只是更隐蔽地转向能效而不是纯粹的性能。在我们广泛的测试中,我们很高兴地看到它实际上主要是今年的效率焦点,新的性能内核展示了足够的性能改进,同时降低了功耗,并显着提高了能效。
A15 的效率核心也获得了巨大的提升,这一次 Apple 主要将它们投入到性能上,新核心展示了 +23-28% 的绝对性能提升,这是流行的基准测试不容易识别的。这种巨大的性能提升进一步帮助 SoC 提高了能源效率,我们对新 13 系列的初始电池寿命数据表明,该芯片在新设备的更长寿命中发挥了很大的作用。
在 GPU 方面,Apple的峰值性能改进超出了图表,新的更大的 GPU、新的架构和更大的系统缓存相结合,有助于提高性能和效率。
Apple 的 iPhone 组件设计似乎限制了 SoC 取得更好的结果,尤其是较新的 Pro 型号,但是即使说了又做了,Apple 在性能和效率方面仍然远远领先于竞争对手。
总体而言,虽然 A15 不是我们近年来从 Apple 习惯的蛮力迭代,但它带来了可观的代际收益,使其成为比 A14 更好的 SoC。最后,看起来苹果的 SoC 团队毕竟执行得很好。