
摘要
· AMD ROCm? 7 通過顯著的性能提升、分布式推理、企業級解決方案以及對 Radeon 和 Windows 更廣泛的支持,攜手開源社區推動 AI 向前發展。
· AMD Developer Cloud 提供對 AMD Instinct MI系列 GPU 的即時訪問,無需本地硬件,配備預配置的開發環境和免費額度,助力 AI 開發與部署的高效推進。
· 不斷擴展的 AMD AI 生態系統展示了 ROCm 在實際場景中的應用,推動可擴展、開放的 AI 創新。
開發者優先。這是我們在構建 ROCm? 7 和 AMD Developer Cloud 時秉持的核心理念。因為在 AMD,我們不僅是在打造 AI 工具——我們更是在為開發者打造這些工具。
無論你是正在探索首個大語言模型想法的研究生,調整下一代注意力機制的科研人員,還是在超大規模環境中推進生產任務的團隊,我們的目標都是讓你的工作變得更輕松、更高效、更出色。ROCm面向所有人,適用于各種場景。
在過去的一年中,我們將重點轉向提升在關鍵模型和框架上的推理與訓練能力,并持續擴大客戶基礎。我們對開發者支持的承諾帶來了更完善的開箱即用體驗、更簡化的配置流程,以及更高水平的社區參與。因此,客戶正以前所未有的速度部署 AI 能力,這也促使我們加快新功能的發布節奏。Llama 4、Gemma 3 和 Deepseek 等主流模型現已獲得首日支持,我們與開源社區的合作也達到前所未有的緊密程度,進一步體現了我們在履行推動開放且創新的 AI 生態系統的承諾。
在 Advancing AI 2025 上,我們分享了一個愿景。這不僅關乎性能圖表或參數指標,更關乎易用性與可擴展性。我們希望讓任何擁有 GitHub 賬戶的人都能使用 MI系列 級別的 GPU;希望通過簡單的 pip install 即可安裝 ROCm;希望用戶能在幾分鐘內從零開始運行 Triton kernel Notebook。
借助 ROCm 7 和 AMD Developer Cloud,這一愿景已成為現實。它開放、無障礙,并為你以自己的方式構建 AI 未來做好了準備。
讓我們深入了解。
ROCm 7:加速開發者賦能與大規模 AI 性能提升
借助 ROCm 7.0,AMD 正在從算法到基礎設施的各個層面加速 AI 創新,為軟件棧重新帶來真正的競爭與開放。ROCm 7.0 旨在滿足生成式 AI 和高性能計算(HPC)工作負載不斷增長的需求,同時通過提升易用性、效率以及活躍的社區協作,重塑開發者體驗。
我們很高興宣布,具備多項新功能與增強特性的 ROCm 7 將于 2025 年第三季度全面開放使用。以下是即將推出的一些重要特性預覽:
ROCm 在 Radeon 和 Windows 上的支持:ROCm 7 將使用體驗擴展至云端之外,支持在 銳龍筆記本和工作站上的開發,實現從云端到終端的一致創新。預計自 2025 年下半年起,ROCm 將集成于主流發行版本中,將 Windows 打造為一流且全面支持的操作系統,確保在家庭和企業環境中的跨平臺能力和高效性能。

圖 1 展示了 ROCm 7 在 AI 推理性能方面的顯著提升1。

圖 2 顯示在 AI 訓練中,ROCm 7 相較于 ROCm 6 平均實現了 3 倍的性能提升2。
合作共建開放 AI 生態系統
重點 ROCm 生態合作伙伴:
這項深度的合作伙伴協作確保開發者能夠使用業界領先的工具,享受持續的性能提升,并在開放的環境中快速迭代和部署。
AMD Developer Cloud:無障礙接入世界級計算資源
作為對 ROCm 7 的補充,AMD Developer Cloud 現已廣泛面向全球開發者和開源社區開放。該全托管環境提供即時訪問 AMD Instinct MI系列 GPU 的能力,無需任何硬件投資或本地配置。
AMD Developer Cloud 亮點:
無論您是在微調大語言模型(LLM)、進行推理性能基準測試,還是構建可擴展的推理架構,AMD Developer Cloud 都為您提供即刻啟動所需的工具與靈活性,并實現無限擴展。
不斷壯大的 AI 生態系統
AMD Developer Cloud 的獨特之處不僅在于其基礎設施,更在于支持并伴隨其發展的充滿活力的生態系統。

Developer Cloud 生態亮點:
這些合作表明,AMD Developer Cloud 不僅僅是一個計算平臺,更是推動下一代 AI 創新的起點。從企業應用到開源實驗,日益壯大的 AMD 合作伙伴生態系統正在積極塑造面向每一位云用戶的工具和服務。
硬件配置
1P AMD EPYC? 9534 CPU 服務器,配備 8 個 AMD Instinct? MI系列(192GB,750W)GPU,Supermicro AS-8125GS-TNMR2,NPS1(每個插槽 1 個 NUMA),1.5 TiB 內存(24 條 DIMM,4800 MT/s,64 GiB/DIMM),4 個 3.49TB Micron 7450 存儲,BIOS 版本:1.8。
軟件配置
Ubuntu 22.04 LTS,Linux 內核 5.15.0-119-generic。
Qwen 72B 和 Llama 3.1-70B:ROCm 7.0 預覽版軟件,PyTorch 2.7.0。
Deepseek R-1:ROCm 7.0 預覽版,SGLang 0.4.6,PyTorch 2.6.0。
對比版本:
Qwen 72B 和 Llama 3.1-70B:ROCm 6.x GA 版本軟件,PyTorch 2.7.0 和 2.1.1。
Deepseek R-1:ROCm 6.x GA 版本軟件,SGLang 0.4.1,PyTorch 2.5.0。
服務器配置可能有所不同,導致測試結果存在差異。性能表現會因配置、軟件版本、vLLM 版本以及是否使用最新驅動和優化措施而異。
硬件配置
1P AMD EPYC? 9454 CPU,8 個 AMD Instinct MI系列GPU(192GB,750W)GPU,American Megatrends International LLC BIOS 版本:1.8。
軟件配置
Ubuntu 22.04 LTS,Linux 內核 5.15.0-70-generic。
ROCm 7.0,Megatron-LM,PyTorch 2.7.0。
對比版本:
ROCm 6.0 公共發布版本軟件,Megatron-LM 代碼分支:
hanl/disable_te_llama2 用于 Llama 2-7B,
guihong_dev 用于 Llama 2-70B,
renwuli/disable_te_qwen1.5 用于 Qwen1.5-14B,
PyTorch 2.2。
服務器配置可能有所不同,導致測試結果存在差異。性能表現會因配置、軟件版本、vLLM 版本以及是否使用最新驅動和優化措施而異。