谷歌Silicon团队带我们参观Pixel6的TensorSoC

小桃メ果果
阅读

谷歌Silicon团队带我们参观Pixel6的TensorSoC

Pixel 6正式发布,拥有全新的相机设计、令人难以置信的定价和全新的 Android 12 操作系统。但是,该设备的主要组件必须是 Google Tensor“片上系统”(SoC)。这是谷歌在智能手机中的第一款主力 SoC,该芯片具有独特的 CPU 内核配置,并且非常注重 AI 能力。

不过,谷歌从什么时候开始成为芯片制造商了?Tensor SoC 的目标是什么?为什么它以独特的方式设计?为了得到一些答案,我们与“Google Silicon”团队的成员坐了下来——我想我们以前从未听说过这个名字。

Google Silicon 是谷歌负责移动芯片的团队。这意味着该团队在 Pixel 3 及更高版本中设计了之前的 Titan M 安全芯片,以及Pixel 2 和 3 中的Pixel Visual Core。该团队一直致力于主要 SoC 开发三四年,但它仍然与Cloud 团队的芯片工作在 YouTube 转码芯片 和 Cloud TPU 等方面。

Phil Carmack 是 Google Silicon 的副总裁兼总经理,Monika Gupta 是团队的高级主管。两者都很好地告诉我们更多关于谷歌秘密芯片的信息。

大多数移动 SoC 供应商从 ARM 许可他们的芯片架构,它还提供了一些关于如何使用其内核设计芯片的(可选)指南。而且,除了 Apple,这些定制设计中的大多数都非常严格地遵循这些准则。今年,最常见的设计是具有一个大 ARM Cortex-X1 内核、三个中型 A78 内核和四个用于后台处理的速度较慢、功耗较低的 A55 内核的芯片。

现在让您思考一下 Google 用 Google Tensor 做什么:该芯片仍然有四个 A55 用于小内核,但它有两个 2.8 GHz 的 Arm Cortex-X1 CPU 来处理前台处理任务。

对于“中等”内核,我们有两个 2.25 GHz A76 CPU。(那是 A76,而不是其他所有人都在使用的 A78——这些 A76 是去年的“大”CPU 内核。)当 Arm 推出 A78 设计时,它说内核——采用 5nm 工艺——提供了 20% 的持续性能与 7nm A76 相比,在相同的热包络中。谷歌现在使用的是 A76 设计,但使用的是 5nm 芯片,因此,根据 ARM 的描述,谷歌的 A76 应该比 A78 芯片发出更少的热量。谷歌基本上在拥有两个大内核上花费了更多的热预算,而在中核上花费了更少的热预算。

所以 Google Silicon 团队的第一个问题是:这个核心布局是怎么回事?

Carmack 的解释是双 X1 架构是为了提高“中等”工作负载的效率。“我们将大量设计工作集中在如何分配工作负载、如何在芯片上分配能量以及处理器如何在不同时间点发挥作用,”卡马克说。“当工作负载繁重时,Android 往往会受到重创,这就是我们获得响应能力的方式。”

这是指大多数移动芯片组所表现出的“匆忙入睡”行为,在这种情况下,加载网页之类的所有内容都会被抛在上面,因此可以快速完成任务,并且设备可以快速返回到低功耗状态。

“当这是一个稳态问题时,比如说,CPU 的负载较轻,但仍然很重要,你将运行双 X1,在那个性能水平上,这将是最有效的,”卡马克说。

他举了一个相机视图作为“中等”工作负载的一个例子,说你“打开你的相机,你有一个实时视图,很多非常有趣的事情同时发生。你有成像计算。你有渲染计算。你有 ML [机器学习] 计算,因为也许 Lens 正在检测图像或其他什么。在这种情况下,你有很多计算,但它是异构的。”

顺便说一句:这里的“异构”意味着使用 SoC 的更多位进行计算,而不仅仅是 CPU,因此在 Lens 的情况下,这意味着 CPU、GPU、ISP(相机协处理器)和谷歌的 ML 协处理器.

Carmack 继续说道,“你可能会使用两个调低频率的 X1,因此它们非常高效,但它们的工作量仍然非常大。你通常会用双 A76 完成的工作量最大,是现在用双 X1 几乎没油了。”

相机是一个很好的案例研究,因为以前的 Pixel 手机在这类任务上都失败了。在 4K 录制三分钟后,Pixel 5 和 5a 都会经常过热。我现在不能谈论太多,但我确实在 Pixel 6 上录制了 20 分钟、4K、60 FPS 的视频,没有过热问题。(我在 20 分钟后感到无聊。)

那么,谷歌是否反对“一个大核心就是一个好的设计”的观点?毕竟,使用一个大内核的想法最近才出现在 Arm 芯片中。我们曾经有四个“大”内核和四个“小”内核,但没有任何这种超大尺寸的单核“主要”内核。

“这一切都取决于你想要完成什么,”卡马克说。“我会告诉你一个大核与两个谁胜出:当你的目标是赢得单线程基准测试时。你在一个大核上扔尽可能多的门来赢得单线程基准测试......如果你想要响应,最快的方式,以及获得高性能的最有效方式,可能是两个大内核。”

卡马克警告说,这“可能会随着效率从一代到下一代的映射而发展”,但对于 X1,谷歌声称这种设计更好。

“单核性能比我们上一代快 80%;GPU 性能比我们上一代快 370%。我这么说是因为人们会问这个问题,但对我来说,事实并非如此,”卡马克解释道。“我认为你可以从故事的这一部分中获得的一件事是,虽然我们是进入 SoC 领域的全新入口,但我们知道如何制造密集、快速的高频、高性能电路,而且功能强大……我们的实施在频率、每瓦特频率以及所有这些方面都非常可靠。这不是构建全新 Tensor SoC 的理由。”

阅读
本文由用户上传,如有侵权请联系删除!

撰写回复
更多知识