9月10日,Arm宣布推出全新Lumex計(jì)算子系統(tǒng) (Compute Subsystem, CSS) 平臺(tái)以及全新的 C1 系列CPU與Mali G1-Ultra GPU。不同于單點(diǎn)性能的堆疊,這次更新更像是一套系統(tǒng)性的答案:CPU 與 GPU 的角色被重新定義,平臺(tái)化整合和生態(tài)支持成為重點(diǎn),目的直指一個(gè)方向——讓 AI 真正普及到每一臺(tái)設(shè)備。
發(fā)布會(huì)后,Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven、Arm終端事業(yè)部產(chǎn)品管理總監(jiān)Ronan Naughton分享了更多關(guān)于Lumex平臺(tái),全新C1系列CPU、G1系列GPU的更多技術(shù)細(xì)節(jié)。
Lumex CSS 平臺(tái)集成了搭載第二代可伸縮矩陣擴(kuò)展 (SME2) 技術(shù)的最高性能 Arm CPU、GPU 及系統(tǒng) IP,不僅能助力生態(tài)伙伴更快將 AI 設(shè)備推向市場(chǎng),還可支持桌面級(jí)移動(dòng)游戲、實(shí)時(shí)翻譯、智能助手及個(gè)性化應(yīng)用等多樣的豐富體驗(yàn)。James McNiven表示,根據(jù)具體的實(shí)現(xiàn)方案和運(yùn)行頻率,第二代可伸縮矩陣擴(kuò)展 (SME2) 在技術(shù)上可提供額外 2 到 6 TOPS 的算力。
乍看之下SME2提供的這些額外算力并不耀眼,畢竟當(dāng)前很多廠商的NPU已經(jīng)能夠做到上百TOPS的算力,但 Arm 終端事業(yè)部產(chǎn)品管理副總裁 James McNiven 卻多次強(qiáng)調(diào)它的重要性:“很多 AI 任務(wù)的瓶頸不在算力,而在內(nèi)存帶寬。SME2 的優(yōu)勢(shì)是直接在 CPU 內(nèi)核執(zhí)行,能即時(shí)訪問緩存和系統(tǒng)內(nèi)存?!?/span>
他進(jìn)一步解釋
這種設(shè)計(jì)意味著SME2并非要取代NPU,而是補(bǔ)足CPU在AI時(shí)代的新使命。Arm認(rèn)為,不同的計(jì)算單元有不同的長(zhǎng)處,各自針對(duì)不同類型的 AI 工作負(fù)載進(jìn)行優(yōu)化:NPU 擅長(zhǎng)高吞吐量、大模型的推理任務(wù),例如大語言模型 (LLM)、視覺 Transformer;GPU 更適合并行性強(qiáng)、與圖形相關(guān)的 AI 任務(wù),例如渲染加上 AI 圖形優(yōu)化升級(jí);而搭載 SME2 的 CPU,則在需要與系統(tǒng)邏輯緊密集成的低延遲、持續(xù)在線的小模型任務(wù)中有卓越表現(xiàn)。
SME2的落點(diǎn),正是 Arm全新推出的 C1 CPU系列。全新的C1系列為不同層級(jí)的設(shè)備提供分層設(shè)計(jì):
C1-Ultra瞄準(zhǔn)旗艦,單線程性能提升 25%,AI 性能提升 5 倍,適合大模型推理與高性能創(chuàng)作;C1-Premium 在性能與面積之間找到平衡,面向次旗艦市場(chǎng);C1-Pro 強(qiáng)調(diào)持續(xù)性能,適合長(zhǎng)時(shí)間的流式任務(wù),如視頻播放、語音交互;C1-Nano 則在小型化與能效上做到極致,為可穿戴設(shè)備提供可能。
正如Arm所介紹的,CPU永遠(yuǎn)是通用核心。AI會(huì)在 CPU、GPU、NPU 和云端之間異構(gòu)運(yùn)行,但CPU在系統(tǒng)層面始終是中心組件。C1系列因此不僅是一次性能升級(jí),更是 Arm把CPU定位為“普適AI執(zhí)行層”的體現(xiàn)。
如果說CPU的重心在于普適與低延遲,那么 GPU的升級(jí)則讓它承擔(dān)起圖形和AI的雙重角色。
新一代 Mali G1-Ultra 在圖形渲染方面集成了RTUv2光線追蹤單元,性能相比前代提升2倍,使移動(dòng)端的游戲畫質(zhì)更接近桌面級(jí)體驗(yàn);在 AI 運(yùn)算上,它帶來了最高 20% 的推理性能提升,并首次增加了FP16指令支持,專門面向低精度AI模型的運(yùn)行效率。
Arm終端事業(yè)部產(chǎn)品管理總監(jiān)McNiven 認(rèn)為,這是 GPU 角色演進(jìn)的關(guān)鍵一步:“我們看到 AI 正在重塑圖形領(lǐng)域。未來 GPU 不僅是畫質(zhì)渲染器,更是智能視覺平臺(tái)。”這正呼應(yīng)了 Arm 推出的 神經(jīng)圖形(Neural Graphics) 概念:通過 AI 實(shí)現(xiàn)超分辨率、幀生成和降噪,讓 GPU 成為連接感知與視覺體驗(yàn)的樞紐。
此前ARM帶來的CPU與GPU的更新,并不是孤立的硬件模塊,而被打包進(jìn)了新的 Lumex CSS 平臺(tái)。CSS(Compute Subsystem,計(jì)算子系統(tǒng))的定位,是為合作伙伴提供一套可直接復(fù)用的底層架構(gòu)。
它包括最新的C1 CPU、Mali GPU,以及支持最多 14 個(gè)處理單元的 C1-DSU(DynamIQ Shared Unit),并提供基于 3nm 工藝的物理實(shí)現(xiàn)路徑。廠商可以選擇直接采納Arm的參考設(shè)計(jì),也可以在此基礎(chǔ)上增加自家的 NPU、ISP等模塊,快速推出差異化的 SoC。
“Lumex CSS 不是提供完整芯片,而是專注于平臺(tái)中計(jì)算密集的部分,其余部分仍需合作伙伴自行集成”。這種方案的好處當(dāng)然是能夠幫助合作伙伴縮短設(shè)計(jì)周期。同時(shí)McNiven 也強(qiáng)調(diào),這種定位讓 Arm 在為生態(tài)賦能的同時(shí),也避免了與客戶直接競(jìng)爭(zhēng)成品芯片。
硬件能力如果不能被開發(fā)者輕松調(diào)用,便難以轉(zhuǎn)化為用戶價(jià)值。為此,Arm 推出了 KleidiAI 軟件庫(kù),作為SME2與主流AI框架之間的橋梁。
KleidiAI已集成到PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN、微軟 ONNX Runtime 等框架中。開發(fā)者幾乎無需額外修改代碼,就能直接獲得 SME2 的加速能力。這種“開箱即用”的方式,大幅降低了開發(fā)門檻,也為生態(tài)伙伴的快速驗(yàn)證提供了基礎(chǔ)。
這些努力正在轉(zhuǎn)化為真實(shí)的用戶體驗(yàn)。Arm 提供的數(shù)據(jù)顯示:支付寶在 vivo 新旗艦上的測(cè)試中,大語言模型預(yù)填充性能提升 40%,解碼性能提升 25%;Stability AI 的音頻生成速度提升2.8倍,實(shí)現(xiàn)了端側(cè)實(shí)時(shí)生成;騰訊混元大模型的端側(cè)推理延遲大幅降低,使交互更自然。
這些案例說明,SME2 與 Lumex CSS 平臺(tái)并不是停留在實(shí)驗(yàn)室的概念,而是真正能落地到應(yīng)用中、被用戶感知的改進(jìn)。
在端側(cè) AI 上,不同廠商正在走不同的路。高通通過 Hexagon NPU 主打大模型推理,強(qiáng)調(diào)峰值算力;聯(lián)發(fā)科利用 APU 與 GPU 結(jié)合,強(qiáng)化影像和游戲場(chǎng)景;蘋果則憑借自研 GPU 和神經(jīng)網(wǎng)絡(luò)引擎,形成高度閉環(huán)的生態(tài)優(yōu)勢(shì)。
相比之下,Arm 的思路并非“追逐極致”,而是“構(gòu)建普適層”。通過 SME2,讓 CPU 擁有低延遲 AI 能力;通過 Mali GPU,把 AI 引入視覺體驗(yàn);通過 Lumex CSS,提供可復(fù)用的計(jì)算基座。這種策略更像是在為整個(gè)生態(tài)打地基,讓不同廠商都能在此之上構(gòu)建差異化。
Arm 預(yù)計(jì),到 2030 年,SME與 SME2技術(shù)將覆蓋超過 30 億臺(tái)設(shè)備,新增超過100億TOPS的算力。未來幾年,CPU、GPU與NPU不再是競(jìng)爭(zhēng)關(guān)系,而是各自找到最合適的角色,共同構(gòu)成端側(cè) AI 的計(jì)算框架。而 Lumex CSS 平臺(tái),正是 Arm 期望用來推動(dòng)產(chǎn)業(yè)走向 AI 普適化時(shí)代的底層基礎(chǔ)。