芯东西6月4日报道,生成式人工智能(AI)的应用范畴正拓展至移动端,对芯片性能也提出更高要求。占据逾9成全球智能手机芯片市场的Arm,在本周推出新一代高端移动计算平台2023全面计算解决方案(TCS23),通过采用旗舰级Arm Immortalis GPU、全新Armv9 CPU集群以及更易访问软件的全新增强技术,进一步为智能手机提供更高的计算性能和能效。
在接受媒体采访时,Arm高级副总裁兼终端事业部总经理Chris Bergey谈道,无论是GPU性能,还是运行生成式AI和大型语言模型的AI性能,都需要全面的系统化以及对系统的深刻理解,要兼顾性能提升和高功效。把这些技术挑战融合在一起并以系统级的方式解决,每个技术的模块都是独立的,但合在一起又能够实现总体性能功效的最优表现,这就是TCS的概念。
"我们认为大型语言模型将塑造计算的未来,这意味着需要进一步提升AI方面的工作负载,"Chris Bergey说,"Arm也正在通过相关工作以确保AI可以很好地在Arm架构上运行。我们相信未来将是一个比较混合(hybrid)的环境,大型语言模型在云端运行,但考虑到智能手机或其他计算设备上本地运行AI的隐私和能源效率等问题,用户可以更愿意在设备本机上运行较小的模型。"
Arm中国区业务全球副总裁邹挺分享说,移动数据使用量仍在持续攀升,全球每个用户平均每月流量预计将达到19GB,柔性显示屏和AR光学这样的新形式及元素也开始以不同的方式进入大众视野,生成式AI及移动端大型语言模型的出现将带来新的功能,Arm相信全世界对于移动设备的兴趣和创新需求必将持续加速提升。
据他透露,Arm对CPU和GPU产品路线图的承诺更胜以往,接下来几年将在包括Krake GPU和Blackhawk CPU等关键IP上加大投入,以满足合作伙伴对于计算和图形性能的要求。
一、第五代GPU架构来了,旗舰级GPU性能提高15%
在TCS23中,Arm充分考虑到智能手机对计算的需求,采用旗舰级Arm Immortalis GPU,以满足下一代视觉计算不断增长的复杂需求,驱动沉浸式游戏、实时3D应用和下一代AI应用。
视觉计算的体验主要关乎性能、电池续航和硬件支持。对此,Arm推出迄今最高效的第五代GPU架构。为了优化内存带宽,第五代GPU架构重新定义了部分图形管道,显著减少了内存带宽,在移动设备上提供能与PC端和游戏主机媲美的游戏和实时3D应用体验。
此外,Arm第五代GPU架构新引入延迟顶点着色(Deferred Vertex Shading, DVS)图形功能,可重新定义数据流,有助于合作伙伴扩展核心数量,优化了系统级缓存的使用,有助于实现更高的性能水平。其优势在《原神》、《堡垒之夜》等许多流行游戏中得到体现。
在此基础上,Arm推出首款基于第五代GPU架构的GPU产品Arm Immortalis-G720。它专为旗舰智能手机而设计,是Arm目前性能和能效最优的GPU,其性能和能效相较同配置的上一代产品分别提高了15%,系统级效率更跃升了40%,从而带来更高质量的图形渲染。
据Arm终端事业部产品管理高级总监Stefan Rosinger介绍,实现15%性能提升的一个关键驱动因素是提高每时钟指令,再加上与更先进的制程工艺结合,实现比上一代更多的额外频率。
除了Immortalis-G720之外,Arm也推出了新的Arm Mali-G720和Mali-G620,以更低的价位为消费者带来了媲美旗舰级的GPU性能,将高端移动图形功能快速地推向更广大的消费终端市场。
二、迄今最高性能CPU内核:性能提高15%,功耗降低40%
Arm终端事业部产品管理总监Andy Craigen说,Arm在TCS23中做了大量的投入,确保CPU、GPU协同工作,以发挥最优化的系统级效率。
第五代GPU架构在设计时就考虑到CPU和系统。作为TCS23的一部分,全新的Armv9 Cortex CPU计算集群已经连续三年实现两位数的性能增强,同时效率也得到显著提升。
Arm Cortex-X4是Arm第四代Cortex-X内核,也是Arm迄今为止打造的最快速的CPU,其性能相比Cortex-X3提高了15%,同时基于相同工艺的全新高能效微架构可将功耗降低40%。这有助于实现更流畅的网页浏览、更即时的UI响应、更快的应用程序启动时间等移动设备的使用体验。
制程工艺和计算能力更为紧密的结合是实现最高性能和最高效设计的关键。在新一代CPU设计中,Arm在台积电N3E制程工艺上顺利完成了业内首个Cortex-X4流片。Arm和台积电共同为类似Cortex-X4的Arm内核打造定制IP,为充分利用制程工艺和处理器带来的功耗、性能、面积(PPA)优势做好准备,届时双方将通过设计分区和利用先进的封装技术,一同协作提高系统性能和能效。
Arm CPU集群提供了不同配置的选择。其全新大小核Arm Cortex-A720和Cortex-A520双双实现了20%的能效提升。新CPU集群的核心主力Cortex-A720是业界主流CPU IP,Cortex-A520则是Arm最出色的高效率核心。相较Cortex-A76集群解决方案,Cortex-A720和A520的组合方案可在面积仅增加15%的情况下,将性能提高40%,同时具备Armv9的全部优势。
同时,新的CPU集群提供更多的DSU电源模式,以支持更高效地使用更大的L3缓存,并减少外部DRAM流量,实现性能更佳、效率更高的SoC。Arm推出的全新DSU-120即专为满足要求苛刻的多线程用例而设计,支持从可穿戴设备到智能手机、笔记本电脑的众多设备。
三、提供软件和安全解决方案,支持大模型应用开发需求
邹挺谈道,全球有近900万个移动开发者在基于Arm架构、且为Arm架构应用进行开发,Arm从高端游戏到区域性应用为编写更简易、更安全、更快速的软件提供了所需的灵活性和通用性。
作为TCS23的一部分,Arm提供64位计算性能、支持安全创新,以抵御更先进的数字威胁,并提供可扩展的解决方案,从而为更广泛的市场带来更多高级功能。
Arm通过其开源软件库不断提升Arm IP的机器学习功能。Arm NN和Arm Compute Library已在安卓平台上面向谷歌应用(Google Apps)开放,目前拥有超1亿的日活用户。明年年初,这些Arm技术库将通过谷歌移动服务向第三方应用程序的安卓开发者开放访问。Chris Bergey说,Arm将继续推进对这些开源软件库的支持,以便开发者能够继续利用类似ChatGPT或大型语言模型的应用程序来开发他们的应用。
他还谈道,Arm相信64位才是正确的方向,Arm在十年前就开始陆续将64位处理器推向市场,仅支持64位不光保证了更高的性能,也进一步夯实了计算安全。同时面向物联网及更小型计算平台的应用,Arm在其处理器核心仍然会提供32位的支持。
迁移到64位系统的任务已经完成。去年,谷歌Pixel 7推出了一款纯64位应用程序的操作系统,联发科也推出了第一款全64位的安卓SoC,这个芯片目前被多款高端手机采用。另据中国主流应用商店近期报告,在前3000款常用的应用中,纯64位系统应用的合规性接近100%。
内存安全同样不容忽视。Arm所有新CPU均支持64位计算和Armv9安全创新功能,能抵御更高级别的数字威胁。通过Armv9 CPU,Arm在整个移动生态系统中持续成功部署Arm内存标记扩展 (MTE) 功能,以消除占所有软件漏洞高达70%的内存安全漏洞。
当前,企业和消费者市场都在部署相关解决方案。比如智能手机公司荣耀最近宣布将向开发者提供支持MTE的设备。短视频平台快手也将进一步借助该技术优化改进其开发流程。
结语:从移动端芯片到软件创新,提供AI加速的沉浸式数字体验
移动设备已触及到当今数字生活的方方面面,使每个人得以创作并使用由AI加速的沉浸式体验,由此也催生了对计算能力的更多需求。
面向下一代旗舰智能手机,Arm最新推出的2023全面计算解决方案(TCS23),通过一整套针对特定工作负载而设计和优化的最新IP,这些IP可作为一个完整系统无缝地协同工作,为沉浸式游戏体验和智能AI应用提供支持。
谈及TCS是优选解决方案的原因,Chris Bergey总结说,Arm拥有最优秀的IP、广大的合作伙伴以及对于软件生态系统的持续投资的承诺。Arm是CPU的专家,从晶体管到软件堆栈提供系统级解决方案,并与合作伙伴联合进行开发,在终端产品上实现了设计创新。Arm还致力于发展中国的生态系统,使得Immortalis能够成为这些平台上最优秀的游戏引擎。
以最新的智能手机平台举例,Arm CPU和GPU的性能提升带动了AI处理能力大约每两年翻一番。基于Arm架构的AI平台出货量远超其他终端计算架构,因而成为全球开发者在为其应用程序引入AI和机器学习时最易访问和选用的平台。
可以看到,Arm正致力于移动领域实现从芯片到软件的创新,通过实现性能和效率的提升,支持由庞大的全球生态系统带来持续增长的沉浸式数字体验。凭借Armv9架构的可扩展性,Arm还在继续探寻AI和机器学习的优化方法,以便开发者能访问最新的Arm技术和软件更新,并在Arm架构上获得出色的AI性能。